Hadoop Shuffle阶段为什么要排序？Spark为什么采用Sort Shuffle？

最新推荐文章于 2023-09-11 18:02:04 发布

upupfeng

最新推荐文章于 2023-09-11 18:02:04 发布

阅读量3.5k

点赞数 7

分类专栏： Spark 大数据文章标签： Shuffle排序 Sort Shuffle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ifenggege/article/details/108024992

版权

问题

Hadoop shuffle阶段为什么要排序？
Spark Shuffle为什么从最初的Hash Shuffle改成了Sort Shuffle？

排序

对于数学运算来说，加减乘除是基本的运算符。而对于计算机计算处理数据来说，排序、查找等就是它的基本运算符。

列一些排序的应用：

查找某个元素在数组中的位置。可以将数组排序，之后二分查找
找出两个数组都包含的元素。可以将两个数组排序，然后循环对比
……

在数据处理时，基于有序数据的处理会比无序数据快很多。but，排序是需要时间和空间的。

所以涌现了很多优秀的排序算法，降低排序的代价。

Hadoop shuffle为什么要排序？

MapReduce在shuffle阶段会有两个地方发生排序：

map端溢写磁盘前会根据key排序
reduce端拉取分区数据后进行排序

reduce端排序

Reduce端需要对数据进行分组，将key相同的放在一起规约。为达到目的，有两种算法：hashmap和sort，前者太耗内存，而排序可以通过外排对任意数据量分组，只要磁盘数据量够大就行。

map端排序

map端排序是为了减轻reduce端排序的压力。

关于这个问题，更多的讨论可查看：

最低0.47元/天解锁文章

关注

7
点赞
踩
13

收藏

觉得还不错? 一键收藏
2
评论
Hadoop Shuffle阶段为什么要排序？Spark为什么采用Sort Shuffle？

Hadoop shuffle阶段为什么要排序？Spark Shuffle为什么从最初的Hash Shuffle改成了Sort Shuffle？
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。