【Hadoop】：Hadoop的shuffle（混洗）过程

最新推荐文章于 2022-08-13 00:07:03 发布

hxcaifly

最新推荐文章于 2022-08-13 00:07:03 发布

阅读量1.4k

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/hxcaifly/article/details/83857034

版权

Shuffle过程是MapReduce的核心，涉及到从map task到reduce task的数据传输。Map端的Shuffle包括内存缓冲区、溢写、排序、合并和Combiner的使用。Reduce端则负责拉取数据、合并与Merge，最后生成Reducer的输入文件。Shuffle过程中，合理使用Combiner可以优化中间结果，减少网络和磁盘IO负担。

摘要由CSDN通过智能技术生成

1. 前言

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方，Shuffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里的Collections.shuffle(List)方法，它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么，那么请看这张图：
在这里插入图片描述
这张是官方对Shuffle过程的描述。但我可以肯定的是，单从这张图你基本不可能明白Shuffle的过程，因为它与事实相差挺多，细节也是错乱的。后面我会具体描述Shuffle的事实情况，所以这里你只要清楚Shuffle的大致范围就成—怎样把map task的输出结果有效地传送到reduce端。也可以这样理解， Shuffle描述着数据从map task输出到reduce task输入的这段过程。

在Hadoop这样的集群环境中，大部分map task与reduce task的执行是在不同的节点上，当然很多情况下Reduce执行时需要跨节点去拉取其它节点上的map task结果，如果集群正在运行的job有很多，那么task的正常执行对集群内部的网络资源消耗会很严重。这种网络消耗是正常的，我们不能限制，能做的就是最大化地减少不必要的消耗。还有在节点内，相比于内存，磁盘IO对job完成时间的影响也是可观的。从最基本的要求来说，我们对Shuffle过程的期望可以有：