Spark Shuffle 的过程

最新推荐文章于 2023-04-08 21:14:32 发布

Autter

最新推荐文章于 2023-04-08 21:14:32 发布

阅读量387

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_23609603/article/details/108264925

版权

Spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

shuffle 的核心要点

shuffleMapStage 与 ResultStage

在划分 stage 时，最后一个stage 成为 finalStage,它本质上是 resultstage 对象，前面的所有的 stage 被称为 shuffleMapStage。
shuffleMapStage 的结束伴随着 shuffle 文件的写磁盘。
ResultStage 基本上对应着代码中的 action 算子，即是将一个函数应用在 rdd 的各个的数据集上，意味着一个 job 的结束。
基本的流程： 在DAG 阶段以 shuffle 为界，划分 stage,上游的stage 做map task,每个 map task 将计算结果数据分成多份，每一份对应到下游 stage 的每个 partition 中，并将其临时写到磁盘，该过程叫做 shuffle write；下游 stage 做reduce task,每个 reduce task 通过网络拉取上游stage 中所有map task 的指定分区结果数据，该过程叫做shuffle read,最后完成reduce 的业务逻辑。
在 Spark 1.x 有 hash shuffle 和 sort shuffle 两种，到 spark 2.x 版本之后，hash shuffle 就推出了舞台，只剩下 Sort shuffle.
目前 Sort Based shuffle 的 writer 分为三种，BypassMergeSortshuffleWriter、SortShuffleWriter、和unsafeShuffleWriter。

先了解一下 hashShuffle
1. 未经优化的 hashshuffle
shuffle write 阶段，主要就是一个 stage 结束计算之后，为了下一个 stage 可以执行shuffle 类的算子（比如reducebyKey），而将每个 task 处理的数据按 key 进行 “划分”（所谓划分，就是对相同的 Key 执行hash 算法，从而将相同的 key 都写入同一个磁盘文件中，而每一个磁盘文件都只属于下游 stage 的一个task），在将数据写入磁盘之前，会先将数据写入到内存缓冲中，当内存缓冲填满之后，才会溢写到磁盘文件中。

下一个 stage 的task 有多少个，当前的stage 的每个task 就要创建多少分磁盘文件（比如下一个 stage 总共有 100 个task,那么当前 stage 的每个 task 都要创建 100 份磁盘文件）。由此可见，未经优化的 shuffle write 操作所产生的磁盘文件的数量是惊人的，会产大量的磁盘小文件。
在这里插入图片描述

2.经过优化的hashShuffle

未经优化的 hashshuffle 是以 maptask 以维度，每一个 maptask 会产生和下一阶段 reduce task 数目相同的磁盘文件，而优化过后，以 cpu 为维度，每个 cpu 的会生成 reduce task 个数的磁盘文件，通过利用文件的复用，减少了磁盘文件的产生。
未经优化磁盘文件数： N * M （N是 maptask 个数，M 是reduce task 个数）
优化过后磁盘文件数： C * M(C:是cpu 个数，通常每个运行的 excutor 个数是 60 -100 个，每个excutor 分配的cpu 个数是 6-10 个)
在这里插入图片描述

再说 Spark 2.x 的 Sort shuffle.

目前 Sort Based shuffle 的 writer 分为三种，BypassMergeSortshuffleWriter、SortShuffleWriter、和unsafeShuffleWriter。

1.Bypass MergeSortShuffleWriter
与 hashshuffle 中的 hashshuffle 的 writer 基本一致，唯一区别在于，map端的多个输出文件会被汇总为同一个文件，会生成一个索引文件，索引文件是为了索引到每个分区的起始地址，可以随机 access 某个 partition 的所有数据。

但是需要注意，这种方式不宜有太多分区（不超过200），因为过程中会并发打开所有分区对应的临时文件，会对文件系统造成过大的压力。这种模式下为了减少IO次数，会采用 buffer ,但是 buffer 的大小默认为 32k,当然这个大小是可以通过spark.shuffle.file.buffer参数自定义配置的。
2、SortShuffleWriter:会对分区排序，或则进行全局排序‘
处理步骤：

使用 PartitionedAppendOnlyMap 或则 PartitionedPairBuffer 在内存中进行排序，排序的 Key 是（partitionId,hash(key)）这样一个元组。
如果超过内存阈值，就spill 到一个文件中，这个文件中的元素也是有序的，首先是按照 partitionId 进行排序，如果 PartitionId 相同，再根据 Hash(key) 进行比较排序。
如果需要输出全局有序的文件的时候，就需要对之前的所有的输出文件和当前内存中的数据结构进行 merge sort，实现全局有序。
最终读取的时候，从整个全局 merge 后的读取迭代器中读取的数据，就是按照 parttionId 从小到大排序的数据，读取过程中按照分区分段，并且记录每个分区文件的起始写入位置，把这些位置数据写入到索引文件中。

SortShuffleWriter 中使用 ExternalSorter 来对内存中的数据进行排序，ExternalSorter内部维护了两个集合PartitionedAppendOnlyMap、PartitionedPairBuffer，两者的区别如下
在这里插入图片描述
3. UnsafeShuffleWriter: 优化部分是 shuffle write 进行序列化写入过程中，直接对二进制进行排序，减少了内存消耗和 GC 的开销，最终只是 partition 级别的排序。但是这种模式也有一定限制：shuffle 数量有限制，而且不能带有聚合函数。

Autter

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Shuffle 的过程

shuffle 的核心要点shuffleMapStage 与 ResultStage在划分 stage 时，最后一个stage 成为 finalStage,它本质上是 resultstage 对象，前面的所有的 stage 被称为 shuffleMapStage。shuffleMapStage 的结束伴随着 shuffle 文件的写磁盘。ResultStage 基本上对应着代码中的 action 算子，即是将一个函数应用在 rdd 的各个的数据集上，意味着一个 job 的结束。基本的流程：在DA
复制链接

扫一扫