一个Map-Reduce任务的执行过程以及数据输入输出的类型如下所示:
(input)<k1,v1> -> map -> <k2,v2> -> combine -> <k2,v2> -> reduce -> <k3,v3>(output)
下面通过一个的例子并结合源代码来详细说明这个过程
WordCount示例
这也是Hadoop自带的一个例子,目标是统计文本文件中单词的个数。
假设有如下的两个文本文件来运行WorkCount程序:
Hello World Bye World |
Hello Hadoop GoodBye Hadoop |
map数据输入
Hadoop针对文本文件缺省使用LineRecordReader类来实现读取,一行一个key/value对,key取偏移量,value为行内容。
如下是map1的输入数据:
Key1 | Value1 |
0 | Hello World Bye World |
如下是map2的输入数据:
Key1 | Value1 |
0 | Hello Hadoop GoodBye Hadoop |
map输出/combine输入
如下是map1的输出结果
Key2 | Value2 |
Hello | 1 |
World | 1 |
Bye | 1 |
World | 1 |
如下是map2的输出结果
Key2 | Value2 |
Hello | 1 |
Hadoop | 1 |
GoodBye | 1 |
Hadoop | 1 |
combine输出
Combiner类实现将相同key的值合并起来,它也是一个Reducer的实现。
如下是combine1的输出
Key2 | Value2 |
Hello | 1 |
World | 2 |
Bye | 1 |
如下是combine2的输出
Key2 | Value2 |
Hello | 1 |
Hadoop | 2 |
GoodBye | 1 |
reduce输出
Reducer类实现将相同key的值合并起来。
如下是reduce的输出
Key2 | Value2 |
Hello | 2 |
World | 2 |
Bye | 1 |
Hadoop | 2 |
GoodBye | 1 |
即实现了WordCount的处理。