2010年06月_xyz2011

12月 11月 10月 09月 07月 06月 04月 03月 02月 01月

原创 MapReduce工作原理

Map-Reduce框架的运作完全基于对，即数据的输入是一批对，生成的结果也是一批对，只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化（serialize）操作，所以它们必须要实现Writable接口，而且key的类还必须实现WritableComparable接口，使得可以让框架对数据集的执行排序操作。一个Map-Reduce任务的执行过程以及数据输入输出的类型...

2010-06-30 13:45:25 133

原创 Hadoop开发常用的InputFormat和OutputFormat

Hadoop中的Map Reduce框架依赖InputFormat提供数据，依赖OutputFormat输出数据；每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发，本文介绍几种常用的。TextInputFormat用于读取纯文本文件，文件被分为一系列以LF或者CR结束的行，key是每一行的位置（偏移量,Long...

2010-06-30 13:39:55 243

原创 Eclipse下hadoop插件的配置

1、首先打开/hadoop-0.19.0/contrib/ 会发现有一个eclipse-plugin【简称EP】.这个插件就和IBM所说的插件是一样的。现在我们开始下一步的配置吧。2、直接把EP放到eclipse/plugins下。然后重启eclipse.现在你会发现 window/show-view 多了一个一项(MapReduce Tools),这个正是我们所需要的。3、找到MapRe...

2010-06-29 14:16:47 115

原创 Mapper和Reducer的分析

1.reduce和map类似，每个task内部可以共享静态类属性，每个task可能会多次调用reduce()函数，但每个key只对应某节点上的某个task的reduce()函数的一次执行2.多个tasks之间不能共享静态类属性，即使在同一台机器上，因为是以进程方式运行3.一个key不可能被两个tasks拆分执行，不管是否在相同的节点上。4. Hadoop Map/Reduc...

2010-06-29 10:46:37 778

MapReduce是 Google的一项重要技术，它是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。至少现阶段而言，对许多开发人员来说，并行计算还是一个比较遥远的东西。MapReduce就是一种简化并行计算的编程模型，它让那些没有多少并行计算经验的开发人员也可以开发并行应用。在我看来，这也就是MapReduce的价值所在，通过简化编程模型，降低了开发并行...

2010-06-29 09:47:57 95

原创 namenode与secondaryNamenode的联系

NameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件（edits）。当一个NameNode启动时，它首先从一个映像文件（fsimage）中读取HDFS的状态，接着应用日志文件中的edits操作。然后它将新的HDFS状态写入（fsimage）中，并使用一个空的 edits文件开始正常操作。因为NameNode只有在启动阶段才合并fsimage和edits，所以一段时间后日志文件可...

2010-06-28 10:09:59 206

原创理解java中的反射机制

一、反射的概念：反射的概念是由Smith在1982年首次提出的，主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。这一概念的提出很快引发了计算机科学领域关于应用反射性的研究。它首先被程序语言的设计领域所采用,并在Lisp和面向对象方面取得了成绩。其中LEAD/LEAD++ 、 OpenC++ 、MetaXa和OpenJava等就是基于反射机制的语言。最近，反射机制也被应用到了视...

2010-06-28 09:14:55 83