MapReduce作业Map阶段和Reduce阶段重要过程详述（Partitioner、Combiner、Shuffle三个阶段的解析）

最新推荐文章于 2024-06-29 17:01:13 发布

马超的博客

最新推荐文章于 2024-06-29 17:01:13 发布

阅读量1w

点赞数 2

分类专栏： Hadoop 文章标签： mapreduce hadoop

本文链接：https://blog.csdn.net/superman_xxx/article/details/51390804

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

MapReduce作业Map阶段和Reduce阶段重要过程详述（Partitioner、Combiner、Shuffle）

MapReduce作业Map阶段和Reduce阶段重要过程详述（Partitioner、Combiner、Shuffle三个阶段的解析）

备注：map阶段包括partitioner、combiner；reduce阶段包括shuffle。

combiner阶段：

（combiner阶段：也可以称为local reduce）combiner阶段是程序员可以选择的，combiner其实也是一种reduce操作，因此我们看见WordCount类里是用reduce进行加载的。Combiner是一个本地化的reduce操作，它是map运算的后续操作，主要是在map计算出中间文件前做一个简单的合并重复key值的操作，例如我们对文件里的单词频率做统计，map计算时候如果碰到一个hadoop的单词就会记录为1，但是这篇文章里hadoop可能会出现n多次，那么map输出文件冗余就会很多，因此在reduce计算前对相同的key做一个合并操作，那么文件会变小，这样就提高了宽带的传输效率，毕竟hadoop计算力宽带资源往往是计算的瓶颈也是最为宝贵的资源，但是combiner操作是有风险的，使用它的原则是combiner的输入不会影响到reduce计算的最终输入，例如：如果计算只是求总数，最大值，最小值可以使用combiner，但是做平均值计算使用combiner的话，最终的reduce计算结果就会出错。

shuffle阶段：

将map的输出作为reduce的输入的过程就是shuffle了，这个是mapreduce优化的重点地方。shuffle阶段采用HTTP协议从各个map task上远程拷贝结果。Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射，负责数据的过滤分发；Reduce是规约，负责数据的计算归并。Reduce的数据来源于Map，Map的输出即是Reduce的输入，Reduce需要通过 Shuffle来获取数据。从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端，在Map端包括Spill过程，在Reduce端包括copy和sort过程。Spill过程包括输出、排序、溢写、合并等步骤。

partitioner阶段：

在进行MapReduce计算时，有时候需要把最终的输出数据分到不同的文件中，比如按照省份划分的话，需要把同一省份的数据放到一个文件中；按照性别划分的话，需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么，如果要得到多个文件，意味着有同样数量的Reducer任务在运行。Reducer任务的数据来自于Mapper任务，也就说Mapper任务要划分数据，对于不同的数据分配给不同的Reducer任务运行。Mapper任务划分数据的过程就称作Partition。负责实现划分数据的类称作Partitioner。更多优秀文章请关注：[1]: 董西城Hadoop中shuffle阶段流程分析[2]: [通过腾讯shuffle部署对shuffle过程进行详解]http://www.open-open.com/lib/view/open1400682430331.html