参考:
1 caibinbupt的源代码分析http://caibinbupt.javaeye.com
http://coderplay.javaeye.com/blog/295097
http://coderplay.javaeye.com/blog/318602
3 Javen-Studio 咖啡小屋
http://www.cppblog.com/javenstudio/articles/43073.html
一 MapReduce概述
Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programmingmodel),是一个用于处理和生成大规模数据集(processing and generating large data sets)的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对,再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。
二 MapReduce工作原理
Map-Reduce框架的运作完全基于<key,value>对,即数据的输入是一批<key,value>对,生成的结果也是一批<key,value>对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实现WritableComparable接口,使得可以让框架对数据集的执行排序操作。
一个Map-Reduce任务的执行过程以及数据输入输出的类型如下所示:
Map:<k1,v1> ->list<k2,v2>
Reduce:<k2,list<v2>> -><k3,v3>
下面通过一个的例子来详细说明这个过程。
WordCount是Hadoop自带的一个例子,目标是统计文本文件中单词的个数。假设有如下的两个文本文件来运行WorkCount程序:
Hello World Bye World
Hello Hadoop GoodBye Hadoop
1 map数据输入
Hadoop针对文本文件缺省使用LineRecordReader类来实现读取,一行一个key/value对,key取偏移量,value为行内容。
如下是map1的输入数据:
Key1 |
Value1 |
0 |
Hello World Bye World |
如下是map2的输入数据:
Key1 |
Value1 |
0 |
Hello Hadoop GoodBye Hadoop |
2 map输出/combine输入
如下是map1的输出结果
Key2 |
Value2 |
Hello |
1 |
World |
1 |
Bye |
1 |
World |
1 |
如下是map2的输出结果
Key2 |
Value2 |
Hello |
1 |
Hadoop |
1 |
GoodBye |
1 |
Hadoop |
1 |
3 combine输出
Combiner类实现将相同key的值合并起来,它也是一个Reducer的实现。
如下是combine1的输出
Key2 |
Value2 |
Hello |
1 |
World |
2 |
Bye |
1 |
如下是combine2的输出
Key2 |
Value2 |
Hello |
1 |
Hadoop |
2 |
GoodBye |
1 |
4 reduce输出
Reducer类实现将相同key的值合并起来。
如下是reduce的输出