hadoop中mapperReduce的shuffle过程

最新推荐文章于 2024-06-17 17:01:24 发布

七彩星云

最新推荐文章于 2024-06-17 17:01:24 发布

阅读量704

点赞数 1

分类专栏： Hadoop 文章标签： shuffle mapper reduce

本文链接：https://blog.csdn.net/u012117339/article/details/87270066

版权

2 篇文章 0 订阅

订阅专栏

mapper的个数
默认mapper个数与split个数比例是1:1，split个数，由splitSize决定，splitSize=max(minSize,max(blockSize,maxSize))，即，取这三个参数的中间值。
shuffle过程

mapper端会处理输入数据产生中间结果，这个中间结果会写入到本地磁盘，而不是HDFS。
每个mapper的输出会先写到一个环形的内存缓冲区（默认大小为100M）中，当写入的数据达到一个阀值（80%）的时候，系统会启动一个线程将缓冲区的数据写到磁盘(形成一个单独的小文件)，这个过程叫做spill。
在split写入之前，会进行二次排序，首先会根据数据所属的partition进行排序，然后每个partition中的数据再按key进行排序。
partition的目的是，将记录划分到不同的reduce中，以期望能够达到负载均衡，以后的reduce会根据partition来读取数据。
接着运行combiner（如果设置了的话），本质也是一个reduce，其目的是将mapper生成的数据再进行一次处理，减少写入磁盘的数据量。
最后将数据写入到磁盘，生成split文件，(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。
最后，每个mapper任务可能产生多个split文件，每个mapper任务完成前，会通过多路归并算法将这些小文件合并成一大个文件，至此，Map的shuffle过程就结束了。

Reduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce。
首先要将Map端产生的输出文件拷贝到Reduce端，但每个Reducer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。
接下来就是sort阶段，也成为merge阶段，因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Reduce端的数据都是有序的，所以很适合归并排序。最终在Reduce端生成一个较大的文件作为Reduce的输入。
最后就是Reduce过程了，在这个过程中产生了最终的输出结果，并将其写到HDFS上。

关注

专栏目录