本节我们来着重学习ReduceTask的内部操作流程和实现。
我们先看一下ReduceTask操作流程:
[img]http://dl2.iteye.com/upload/attachment/0085/1167/46622c7e-6b58-3d6f-94ee-daf445063c1b.jpg[/img]
从流程图中我们可以看出,ReduceTask分5个阶段:
[b]Copy阶段[/b]
[b]Merge阶段[/b]
[b]Sort阶段[/b]
[b]Reduce阶段[/b]
[b]Write阶段[/b]
其中的Copy阶段和Merge阶段是并行进行的。默认情况下ReduceTask同时启动5个MapOutputCopier线程从各个Mapper端的中间数据结果copy数据,放大小超过一定阀值后,则存放到磁盘上,否则直接放到内存中。
为了防止内存或磁盘上的文件数据太多,ReduceTask会启动后台线程分别对内存和磁盘上的数据文件进行合并操作。
当数据copy完后,还要经过Sort排序阶段对所有数据按key进行排序操作,将相同的key对应的value汇聚到一起,然后交给reduce()方法处理。
经过reduce()方法对数据进行处理后,然后将数据写到HDFS上。
我们先看一下ReduceTask操作流程:
[img]http://dl2.iteye.com/upload/attachment/0085/1167/46622c7e-6b58-3d6f-94ee-daf445063c1b.jpg[/img]
从流程图中我们可以看出,ReduceTask分5个阶段:
[b]Copy阶段[/b]
[b]Merge阶段[/b]
[b]Sort阶段[/b]
[b]Reduce阶段[/b]
[b]Write阶段[/b]
其中的Copy阶段和Merge阶段是并行进行的。默认情况下ReduceTask同时启动5个MapOutputCopier线程从各个Mapper端的中间数据结果copy数据,放大小超过一定阀值后,则存放到磁盘上,否则直接放到内存中。
为了防止内存或磁盘上的文件数据太多,ReduceTask会启动后台线程分别对内存和磁盘上的数据文件进行合并操作。
当数据copy完后,还要经过Sort排序阶段对所有数据按key进行排序操作,将相同的key对应的value汇聚到一起,然后交给reduce()方法处理。
经过reduce()方法对数据进行处理后,然后将数据写到HDFS上。