Hadoop和Spark为什么要对key进行排序

最新推荐文章于 2023-11-13 08:45:08 发布

Hoult-吴邪

最新推荐文章于 2023-11-13 08:45:08 发布

阅读量452

点赞数

分类专栏：大数据开发-系列文章标签： hadoop spark

本文链接：https://blog.csdn.net/hu_lichao/article/details/109966711

版权

1.思考

只要对hadoop中mapreduce的原理清楚的都熟知下面的整个流程运行原理，其中涉及到至少三次排序，分别是溢写快速排序，溢写归并排序，reduce拉取归并排序，而且排序是默认的，即天然排序的，那么为什么要这么做的，设计原因是什么。先给个结论，为了整体更稳定，输出满足多数需求，前者体现在不是采用hashShuffle而是sortShuffle ,后者体现在预计算，要知道排序后的数据，在后续数据使用时的会方便很多，比如体现索引的地方,如reduce拉取数据时候。

file

2.MapReduce原理分析

在分析设计原因之前，先理解一下整个过程，在map阶段，根据预先定义的partition规则进行分区，map首先将输出写到缓存中，当缓存内容达到阈值时，将结果spill到硬盘，每一次spill都会在硬盘产生一个spill文件，因此一个map task可能会产生多个spill文件，其中在每次spill的时候会对key进行排序。接下来进入shuffle阶段，当map写出最后一个输出，需要在map端进行一次merge操作，按照partition和partition内的key进行归并排序（合并+排序），此时每个partition内按照key值整体有序。然后开始第二次merge，这次是在reduce端，在此期间数据在内存和磁盘上都有，其实这个阶段的merge并不是严格意义上的排序，也是跟前面类似的合并+排序，只是将多个整体有序的文件merge成一个大的文件，最终完成排序工作。分析完整个过程后，是不是觉得如果自己实现MapReduce框架的话，考虑用HashMap 输出map内容即可。

2.1 MapTask运行机制详解

整个流程图如下：

最低0.47元/天解锁文章

Hoult-吴邪

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Hadoop和Spark为什么要对key进行排序

1.思考只要对hadoop中mapreduce的原理清楚的都熟知下面的整个流程运行原理，其中涉及到至少三次排序，分别是溢写快速排序，溢写归并排序，reduce拉取归并排序，而且排序是默认的，即天然排序的，那么为什么要这么做的，设计原因是什么。先给个结论，为了整体更稳定，输出满足多数需求，前者体现在不是采用hashShuffle而是sortShuffle ,后者体现在预计算，要知道排序后的数据，在后续数据使用时的会方便很多，比如体现索引的地方,如reduce拉取数据时候。2.MapReduce原理分析
复制链接

扫一扫

专栏目录