jaguar13-CSDN博客

百度笔试题：在矩阵中查找k

题目：给定如下的n*n的数字矩阵，每行从左到右是严格递增，每列的数据也是严格递增1 2 33 5 64 8 9现在要求设计一个算法，给定一个数k 判断出k是否在这个矩阵中。描述算法并且给出时间复杂度（不考虑载入矩阵的消耗）答案：沿着矩阵的对角线进行二分查找。如果k在这条对角线上，则可以得出，k在矩阵中；如果k比对角线上第一个数小，或者比对角线上最后...

2010-07-05 13:33:57 484

原创 Linux内核中的红黑树

红黑树是平衡二叉树的一种，它有很好的性质，树中的结点都是有序的，而且因为它本身就是平衡的，所以查找也不会出现非常恶劣的情况，基于二叉树的操作的时间复杂度是O(log(N))。Linux内核在管理vm_area_struct时就是采用了红黑树来维护内存块的。先到include/linux/rbtree.h中看一下红黑树的一些定义，如下： struct rb_node{...

2010-07-03 16:25:04 244

1. 给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。 2. 有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序 3. 有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词 4.海量日志数据，提取出某日访问百度次数最多

2010-06-09 19:02:00 751

原创大数据量处理专题

1. 给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。 2. 有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序3. 有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词4.海量日志数据...

2010-06-09 18:24:06 109

原创 Hadoop中的数据库访问

Hadoop主要用来对非结构化或半结构化（HBase）数据进行存储和分析，而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来，在Hadoop应用程序中访问数据库中的文件。 1.DBInputFormat DBInputFormat是Hadoop从0.19.0开始支持的一种输入格式，包含在包org.apache.hadoop.mapred.lib.db中，主要用来与现有的数据库系统进行交互，包

2010-06-09 10:18:00 1139

Hadoop中的数据库访问

Hadoop主要用来对非结构化或半结构化（HBase）数据进行存储和分析，而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来，在Hadoop应用程序中访问数据库中的文件。 1.DBInputFormatDBInputFormat是Hadoop从0.19.0开始支持的一种输入格式，包含在包org.apache.hadoop...

2010-06-03 20:21:50 571

《Hadoop开发者》第二期

下载：http://ishare.iask.sina.com.cn/f/7401946.html (新浪爱问)

2010-04-09 10:13:49 124

Configure，Makefile.am, Makefile.in, Makefile文件之间关系

1.autoscan (autoconf): 扫描源代码以搜寻普通的可移植性问题，比如检查编译器，库，头文件等，生成文件configure.scan,它是configure.ac的一个雏形。 your source files --> [autoscan*] --> [configure.scan] --> configure.ac2.aclocal (...

2010-03-12 18:46:22 162

GDB调试精粹及使用实例

一：列文件清单 1． List (gdb) list line1,line2 二：执行程序要想运行准备调试的程序，可使用run命令，在它后面可以跟随发给该程序的任何参数，包括标准输入和标准输出说明符(<和>)和外壳通配符（*、？、[、]）在内。如果你使用不带参数的run命令，gdb就再次使用你给予前一条run命令的参数，这是很有用的。利用set args 命令就可以修改发送给程序...

2010-02-21 22:04:32 85

转载 GDB调试精粹及使用实例

一：列文件清单 1． List (gdb) list line1,line2 二：执行程序要想运行准备调试的程序，可使用run命令，在它后面可以跟随发给该程序的任何参数，包括标准输入和标准输出说明符()和外壳通配符（*、？、[、]）在内。如果你使用不带参数的run命令，gdb就再次使用你给予前一条run命令的参数，这是很有用的。利用set args 命令就可以修改发送给程序的参数，而使用sh

2010-02-21 22:00:00 419

原创 Hadoop开发者入门专刊

Hadoop开发者入门专刊下载地址：http://bbs.hadoopor.com/thread-442-1-1.html

2010-02-04 16:48:00 622

《Hadoop开发者》第一期入门专刊

[align=center][size=x-large]Hadoop开发者入门专刊[/size][/align][img]http://dl.iteye.com/upload/attachment/203202/51d245ba-72b3-3dd5-a040-c985c1f5a43d.jpg[/img]

2010-02-04 16:43:05 120

原创 vi/vim键盘图

[align=center][size=x-large]vi/vim键盘图[/size][/align][img]http://dl.iteye.com/upload/attachment/203195/86736117-c8c7-30b6-a067-4c5b8d68b61b.png[/img]

2010-02-04 16:37:57 92

原创在Windows中使用Cygwin安装HBase

在Windows中使用Cygwin安装HBase飞鸿雪泥1.简介HBase是 Hadoop 的正式子项目，它是一个面向列的分布式数据库，它在存储数据结构上并非关系型，而是疏松分布式的，持久并按多维排序并索引的map型，其思想源于Google的BigTable论文。（Google BigTable的paper: http://labs.google.com/papers/bigtab

2010-02-04 16:23:00 2063 1

原创在Windows中使用Cygwin安装HBase

1.简介HBase是 Hadoop 的正式子项目，它是一个面向列的分布式数据库，它在存储数据结构上并非关系型，而是疏松分布式的，持久并按多维排序并索引的map型，其思想源于Google的BigTable论文。（Google BigTable的paper: http://labs.google.com/papers/bigtable-osdi06.pdf）由于HBase是一个分布式、大规模的...

2010-02-04 16:18:19 99

转载 Hadoop分布式文件系统：架构和设计要点

Hadoop分布式文件系统：架构和设计要点原文：http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同，它们主

2009-02-11 21:05:00 849

转载用 Hadoop 进行分布式并行编程, 第 3 部分

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。在本文中，详细介绍了如何部署　Hadoop 分布式运行环境，如何让程序分布式运行于多台普通的计算机上，如何使用 IBM MapReduce Tools 轻松地将 MapReduce 程序部署到 Hadoop 分

2009-02-11 21:03:00 725

转载用 Hadoop 进行分布式并行编程, 第 2 部分

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架，借助于 Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。在本文中，详细介绍了如何针对一个具体的并行计算任务，基于 Hadoop 编写程序，如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。前言在上一篇

2009-02-11 21:01:00 654

转载用 Hadoop 进行分布式并行编程, 第 1 部分

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架，借助于 Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。本文将介绍 MapReduce 计算模型，分布式并行计算等基本概念，以及 Hadoop 的安装部署和基本运行方法。Hadoop 简介Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架，由

2009-02-11 20:58:00 632

转载 Annotated Hadoop: 第三节 MapReduce工作原理

3 MapReduce工作原理 Map-Reduce框架的运作完全基于对，即数据的输入是一批对，生成的结果也是一批对，只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化（serialize）操作，所以它们必须要实现Writable接口，而且key的类还必须实现WritableComparable接口，使

2009-02-11 20:55:00 498

转载 Annotated Hadoop: 第二节 MapReduce框架结构

2 MapReduce框架结构 Map/Reduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的，Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是，Map/Reduce是一个编程模型（programming model），是一个用于处理和生成大规模数据集（process

2009-02-11 20:52:00 511

转载 Annotated Hadoop: 第一节 Hadoop是什么

1 Hadoop是什么Hadoop原来是Apache Lucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下面列举hadoop主要的一些特点： 1 扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据

2009-02-11 20:50:00 568

☆飞鸿雪泥☆

百度笔试题：在矩阵中查找k

原创《Hadoop开发者》第三期

原创 Linux内核中的红黑树

转载大数据量处理专题

原创大数据量处理专题

原创 Hadoop中的数据库访问

Hadoop中的数据库访问

《Hadoop开发者》第二期

Configure，Makefile.am, Makefile.in, Makefile文件之间关系

GDB调试精粹及使用实例

转载 GDB调试精粹及使用实例

原创 Hadoop开发者入门专刊

《Hadoop开发者》第一期入门专刊

原创 vi/vim键盘图

原创在Windows中使用Cygwin安装HBase

原创在Windows中使用Cygwin安装HBase

转载 Hadoop分布式文件系统：架构和设计要点

转载用 Hadoop 进行分布式并行编程, 第 3 部分

转载用 Hadoop 进行分布式并行编程, 第 2 部分

转载用 Hadoop 进行分布式并行编程, 第 1 部分

转载 Annotated Hadoop: 第三节 MapReduce工作原理

转载 Annotated Hadoop: 第二节 MapReduce框架结构

转载 Annotated Hadoop: 第一节 Hadoop是什么

空空如也

空空如也