hadoop源码解读
iteye_11649
这个作者很懒,什么都没留下…
展开
-
说说hadoop的DFSOutputStream
当我们用命令:[code="java"]hadoop fs -copyFromLocal localfile hdfs://...[/code]将本地文件复制到HDFS时,其背后的复制过程是怎样的?本地文件通过什么方式传输到datanode上的呢?这里面很显然的是:1、文件在多个电脑之间进行了传输(至少有2台电脑:本地电脑和一个datanode节点)。2、如果文件超过一...2010-07-10 23:09:50 · 188 阅读 · 0 评论 -
map的环形内存缓冲区
hadoop在执行MapReduce任务时,在map阶段,map函数产生的输出,并不是直接写入磁盘的。为了提高效率,它将输出结果先写入到内存中(即环形内存缓冲区,默认大小100M),再从缓冲区(溢)写入磁盘。下面我们就来看看这段代码。[size=medium][b]1、找到环形内存缓冲区[/b][/size]在运行job时,有条输出:09/04/07 12:34:35 ...2010-07-11 01:17:15 · 881 阅读 · 0 评论 -
hadoop的1TB排序
[b][size=medium]1、1TB(或1分钟)排序的冠军[/size][/b]作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,[url=http://beijing-josh.iteye.com/blog/212296]Hadoop赢得1TB排序...2010-07-11 08:17:02 · 244 阅读 · 0 评论 -
hadoop的心跳回忆
hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,而datanode/tasktracker属于slaves。master只有一个,而slaves有多个。namenode与datanode之间的通信,jobtracker与tasktracker直接的通信,都是通过“心跳”完成的。以前看过hadoop心跳原理的源代码,今天再...2010-07-11 09:38:33 · 197 阅读 · 0 评论 -
用hadoop估算圆周率PI(3.1415926)的值
[b][size=medium]一、hadoop不适合计算密集型的工作[/size][/b]以前看过一个PPT: [url=http://www.tomwheeler.com/publications/2009/lambda_lounge_hadoop_200910/twheeler-hadoop-20091001-handouts.pdf]Hadoop In 45 Minutes or ...2010-07-12 16:42:10 · 849 阅读 · 0 评论