Hadoop深入学习:ReduceTask详解

本节我们来着重学习ReduceTask的内部操作流程和实现。
我们先看一下ReduceTask操作流程:
[img]http://dl2.iteye.com/upload/attachment/0085/1167/46622c7e-6b58-3d6f-94ee-daf445063c1b.jpg[/img]
从流程图中我们可以看出,ReduceTask分5个阶段:
[b]Copy阶段[/b]
[b]Merge阶段[/b]
[b]Sort阶段[/b]
[b]Reduce阶段[/b]
[b]Write阶段[/b]
其中的Copy阶段和Merge阶段是并行进行的。默认情况下ReduceTask同时启动5个MapOutputCopier线程从各个Mapper端的中间数据结果copy数据,放大小超过一定阀值后,则存放到磁盘上,否则直接放到内存中。
为了防止内存或磁盘上的文件数据太多,ReduceTask会启动后台线程分别对内存和磁盘上的数据文件进行合并操作。
当数据copy完后,还要经过Sort排序阶段对所有数据按key进行排序操作,将相同的key对应的value汇聚到一起,然后交给reduce()方法处理。
经过reduce()方法对数据进行处理后,然后将数据写到HDFS上。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值