MapReduce的shuffle深入详解

最新推荐文章于 2024-06-06 09:15:11 发布

5xh

最新推荐文章于 2024-06-06 09:15:11 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/qq_37283909/article/details/89330130

版权

MapReduce的shuffle过程涉及MapTask和ReduceTask的运行机制，包括分区、排序、归约和合并等步骤。Map阶段，数据经过分区、排序、Combiner优化后写入磁盘，Reduce阶段则通过Fetcher线程拉取数据并进行merge和排序。Combiner用于减少数据传输量，不影响最终结果。

摘要由CSDN通过智能技术生成

整个MapReduce阶段可分为MapTask，ReduceTask

Maptask阶段包含shuffle阶段的分区，排序（sort），规约（combiner），等
ReduceTask阶段包含shuffle阶段的分组。
但实际执行却没这么明了。

MapTask运行机制详解以及Map任务的并行度

在这里插入图片描述

整个Map阶段流程大体如上图所示。
简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给map（用户自己实现的）进行处理，数据被map处理结束之后交给OutputCollector收集器，对其结果key进行分区（默认使用hash分区），然后写入buffer，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，生成最终的正式输出文件，然后等待reduce task来拉数据。
详细步骤：
1、首先，读取数据组件InputFormat（默认TextInputFormat）会通过getSplits方法对输入目录中文件进行逻辑切片规划得到splits，有多少个split就对应启动多少个MapTask。split与block的对应关系默认是一对一。

2、将输入文件切分为splits之后，由RecordReader对象（默认LineRecordReader）进行读取，以\n作为分隔符，读取一行数据，返回<key，value>。Key表示每行首字符偏移值，value表示这一行文本内容。

3、读取split返回<key,value>，进入用户自己继承的Mapper类中，执行用户重写的map函数。RecordReader读取一行这里调用一次。

4、 map逻辑完之后，将map的每条结果通过context.write进行collect数据收集。在collect中，会先对其进行分区处理，默认使用HashPartitioner。

MapReduce提供Partitioner

最低0.47元/天解锁文章

5xh

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的shuffle深入详解

整个MapReduce阶段可分为MapTask，ReduceTaskMaptask阶段包含shuffle阶段的分区，排序（sort），规约（combiner），等ReduceTask阶段的分组。MapTask运行机制详解以及Map任务的并行度整个Map阶段流程大体如上图所示。简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给map...
复制链接

扫一扫