hadoop的shuffle过程

最新推荐文章于 2022-01-06 22:40:58 发布

纳米团队

最新推荐文章于 2022-01-06 22:40:58 发布

阅读量589

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a952213390/article/details/8841594

版权

Hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 综述

shuffle过程分两阶段，一个是mapper端的清理，一个是reducer端。

2 mapper端处理

1>划分

Mapper处理后得到<key,value>对，例如<abc,1>。现在需要决定由哪个reducer来处理这个键值对，现在就需要Partitioner通过hash（键）来决定，通过实现这个getPartition(KEY key, VALUE value, int numPartitions)方法可以实现自己的划分（比如做全局排序时会用）。这样会得到一个hash的结果。然后把<key,value>及这个hash的结果写到缓冲区。

2>排序、combine

当内存放不下的时候，临时将这些就诶果写到磁盘称为spill（溢写），只要溢写开始，就会进行combine过程。即<abc,1>,<abc,4>——><abc,5>这个过程。

3>Merge

当maptask任务完成时，需要将多个溢写文件合成一个文件。合成过程实现了<abc ，[32,4,6,7]>这个过程。

3 reducer端处理

首先每个reducetask都不断RPC JobTracker，看maptask是否完成。如果完成则启动shuffle.

1>get

Reducer HTTP maptask获取maptask的输出文件

2>Merge

get的数据放在内存缓冲区，达到一定数量的时候写到磁盘，这个过程就开始Merge，同样会进行combine。

3>输出

最终的文件默认输出到磁盘。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop的shuffle过程

1 综述shuffle过程分两阶段，一个是mapper端的清理，一个是reducer端。2 mapper端处理1>划分 Mapper处理后得到对，例如。现在需要决定由哪个reducer来处理这个键值对，现在就需要Partitioner通过hash（键）来决定，通过实现这个getPartition(KEY key, VALUE value, int numPar
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。