spark的HashShuffleManager、SortShuffleManager、钨丝ShuffleManager

最新推荐文章于 2021-09-18 17:28:10 发布

Lu_Xiao_Yue

最新推荐文章于 2021-09-18 17:28:10 发布

阅读量1.2k

点赞数 2

文章标签： spark shuffle

本文链接：https://blog.csdn.net/Lu_Xiao_Yue/article/details/86556308

版权

本文详细介绍了Spark的三种Shuffle机制：HashShuffleManager、SortShuffleManager及其优化版bypass SortShuffleManager，以及钨丝ShuffleManager（Tungsten-Sort）。HashShuffleManager因产生大量小文件、IO密集、内存占用高等问题被逐渐淘汰；SortShuffleManager通过排序减少小文件数，但仍有内存开销；而钨丝ShuffleManager通过优化排序和内存管理，提高了性能和效率。

摘要由CSDN通过智能技术生成

1、shuffle分类

spark的shuffle机制可以分为3类，分别是HashShuffleManager、SortShuffleManager、tungsten-sortShuffleManager（钨丝ShuffleManager），下面对着几种shuffle机制进行详细的介绍

2、HashShuffleManager

普通的HashShuffleManager
HashShuffleManager 是早期的Spark版（1.2之前）本中的默认的shuffle的机制，但是这种shuffle机制有很明显的缺陷，下面是hashShuffleManager的原理图
下面图中是有两个executor，每个executor中有一个cpu core，所以每个executor中的并行度是1，在进行shuffle的过程，，map端shuffle的数据回先写到bucket缓存中（32kb）,当达到一定的大小时，会溢写到磁盘上，每个Map task会为每个reduce task产生一份数据，所以map端一共产生的小文件是就是 map task 数* reduce task数

假设一共有100个map task 和 100 个reduce task，那么产生的小文件个数时10000个小文件，这么多小文件带来很多问题：

(1)写磁盘的小文件多，IO多
(2)reduce 端读取数据时建立的连接多
(3)占用内存多，频繁gc,gc时会对外停止工作，还可能导致oom内存