MapReduce 编程系列十二 Reduce阶段内部细节和调节参数

最新推荐文章于 2019-08-26 21:22:09 发布

炼气散人

最新推荐文章于 2019-08-26 21:22:09 发布

阅读量3k

点赞数

分类专栏： # Hadoop 文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csfreebird/article/details/39778857

版权

Hadoop 专栏收录该内容

35 篇文章 1 订阅

订阅专栏

Reduce计算分为若干阶段

1. copy(或者叫shuffle)阶段和merge阶段并行

之前Map产生的结果被存放在本地磁盘上，这时需要从reduce节点将数据从map节点复制过来。放得下进内存，比较大的则写到本地磁盘。

同时，有两个线程对已经获得的内存中和磁盘上的数据进行merge操作。

具体细节是：

通过RPC调用询问task tracker已经完成的map task列表，shuffle（洗牌）是对所有的task tracker host的洗牌操作，这样可以打乱copy数据的顺序，防止出现网络热点（大量进程读取一个task tracker节点的数据）。

可以复制的任务被存放在scheduledCopies中。

一旦有了要复制到数据，会启动多个MapOutputCopier线程，通过HTTP GET请求复制数据，如果数据较大，存入磁盘，否则存入缓存。

对于缓存中，有线程InMemoryFSMerge线程负责merge，对文件，有LocalFSMerger线程负责merge。

因此观察jobtracker会看到map操作还没有完全结束，reduce操作已经开始了，就是进入了copy阶段。

2. sort阶段和调用reducer的reduce函数的并行

sort对Map阶段传来的<key,value> 数据针对key执行归并排序，产生<key, values>

用户编写的reduce将上面的<key, values>传递进ruduce函数处理

并行的算法提高了程序性能，具体算法以后再探讨。

3. write

将结果写到HDFS上。

Reduce的调优参数

mapred.reduce.parallel.copies 默认是5，表示有多少个并发线程去从task tracker节点复制数据

io.sort.factor 又出现了，默认10,仍然指的是并行合并文件的数目

mapred.job.shuffle.merge.percent 默认是0.66, 超过66%，就会将开始合并，然后往磁盘上写数据

mapred.inmem.merge.threshold 默认是1000，超过这个临界值，就会将开始合并，然后往磁盘上写数据

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。