Hadoop中的ReduceTask工作机制

最新推荐文章于 2022-12-05 13:11:26 发布

YF_Li123

最新推荐文章于 2022-12-05 13:11:26 发布

阅读量330

点赞数

分类专栏： hadoop学习笔记文章标签： Hadoop MapReduce Task ReduceTask 工作机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YF_Li123/article/details/108486411

版权

hadoop学习笔记专栏收录该内容

27 篇文章 1 订阅

订阅专栏

1.设置Reduce Task并行度（个数）

与Map Task的并行度有切片决定不同，Reduce Task的并行度可手动设置

job.setNumReduceTasks(20);        // 默认是1

2.ReduceTask工作机制

（1） Copy阶段：Reduce Task从各个Map Task上远程拷贝一片数据，并针对某一个片数据，如果其大小超过一定阈值，则写入磁盘中，否则直接放到内存中

（2） Merge阶段：在远程拷贝数据的同时，Reduce Task启动两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘文件过多

（3） Sort阶段：按照MapReduce语义，用户编写reduce()函数，输入数据是key进行聚集的一组数据。为了将key相同的数据聚集在一起，Hadoop采用了基于排序的策略。由于各个Map Task已经实现了对自己的处理结果进行局部排序，因此，Reduce Task只需对所有数据进行一个归并排序即可

（4） Reduce阶段：reduce()函数将计算后的结果写到HDFS上

参考：

[1] https://blog.csdn.net/weixin_41910694/article/details/91386745

[2] https://blog.csdn.net/weixin_40102671/article/details/80628736?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop中的ReduceTask工作机制

1.设置Reduce Task并行度（个数）与Map Task的并行度有切片决定不同，Reduce Task的并行度可手动设置job.setNumReduceTasks(20); // 默认是12.ReduceTask工作机制（1）Copy阶段：Reduce Task从各个Map Task上远程拷贝一片数据，并针对某一个片数据，如果其大小超过一定阈值，则写入磁盘中，否则直接放到内存中（2）Merge阶段：在远程拷贝数据的同时，Reduce Task启动两...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。