Spark的Shuffle机制

最新推荐文章于 2023-10-13 15:51:56 发布

千淘万漉

最新推荐文章于 2023-10-13 15:51:56 发布

阅读量481

点赞数 1

分类专栏：云计算/大数据

云计算/大数据专栏收录该内容

70 篇文章 1 订阅

订阅专栏

MapReduce中的Shuffle

转载于: http://www.jianshu.com/p/60bab35bc01e

在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。
Shuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使用时，输出结果需要按key哈希，并且分发到每一个Reducer上去，这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输，因此shuffle性能的高低直接影响到了整个程序的运行效率。
下图描述了MapReduce算法的整个流程，其中shuffle phase是介于Map phase和Reduce phase之间：

在Hadoop, 在mapper端每次当memory buffer中的数据快满的时候, 先将memory中的数据, 按partition进行划分, 然后各自存成小文件, 这样当buffer不断的spill的时候, 就会产生大量的小文件。
所以Hadoop后面直到reduce之前做的所有的事情其实就是不断的merge, 基于文件的多路并归排序,在map端的将相同partition的merge到一起, 在reduce端, 把从mapper端copy来的数据文件进行merge, 以用于最终的reduce
多路归并排序, 达到两个目的。
merge, 把相同key的value都放到一个arraylist里面；sort, 最终的结果是按key排序的。
这个方案扩展性很好, 面对大数据也没有问题, 当然问题在效率, 毕竟需要多次进行基于文件的多路归并排序,多轮的和磁盘进行数据读写。

Spark的Shuffle机制

下图为例简单描述一下Spark中shuffle的整一个流程：

· 首先每一个Mapper会根据Reducer的数量创建出相应的bucket，bucket的数量是M×RM×R，其中MM是Map的个数，RR是Reduce的个数。

· 其次Mapper产生的结果会根据设置的partition算法填充到每个bucket中去。这里的partition算法是可以自定义的，当然默认的算法是根据key哈希到不同的bucket中去。

· 当Reducer启动时，它会根据自己task的id和所依赖的Mapper的id从远端或是本地的block manager中取得相应的bucket作为Reducer的输入进行处理。

· 这里的bucket是一个抽象概念，在实现中每个bucket可以对应一个文件，可以对应文件的一部分或是其他等。

· Apache Spark 的 Shuffle 过程与 Apache Hadoop 的 Shuffle 过程有着诸多类似，一些概念可直接套用，例如，Shuffle 过程中，提供数据的一端，被称作 Map 端， Map 端每个生成数据的任务称为 Mapper，对应的，接收数据的一端，被称作 Reduce 端，Reduce 端每个拉取数据的任务称为 Reducer。

· Shuffle 过程本质上都是将 Map 端获得的数据使用分区器进行划分，并将数据发送给对应的 Reducer 的过程。

shuffle 和 stage
shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤.
RDD 的 Transformation 函数中,又分为窄依赖(narrow dependency)和宽依赖(wide dependency)的操作.窄依赖跟宽依赖的区别是是否发生 shuffle(洗牌) 操作.宽依赖会发生 shuffle 操作. 窄依赖是子 RDD的各个分片(partition)不依赖于其他分片,能够独立计算得到结果,宽依赖指子 RDD 的各个分片会依赖于父RDD 的多个分片,所以会造成父 RDD 的各个分片在集群中重新分片, 看如下两个示例:

第一个 Map 操作将 RDD 里的各个元素进行映射, RDD 的各个数据元素之间不存在依赖,可以在集群的各个内存中独立计算,也就是并行化,第二个 groupby 之后的 Map 操作,为了计算相同 key 下的元素个数,需要把相同 key 的元素聚集到同一个 partition 下,所以造成了数据在内存中的重新分布,即 shuffle 操作.shuffle 操作是 spark 中最耗时的操作,应尽量避免不必要的 shuffle.

shuffle过程可能需要完成以下过程
重新进行数据分区

数据传输

数据压缩

磁盘I/O

shuffle工作流程
在运行job时，spark是一个stage一个stage执行的。先把任务分成stage，在任务提交阶段会把任务形成taskset，在执行任务。
spark的DAGScheduler根据RDD的ShuffleDependency来构建Stages：

例如：ShuffleRDD/CoGroupedRDD有一个ShuffleDependency。

很多操作通过钩子函数来创建ShuffleRDD

每个ShuffleDependency会map到spark的job的一个stage，然后会导致一个shuffle过程。

基于sort的shuffle
sort-based的shuffle，会把输入的记录根据目标分区id(partition ids)进行排序。然后写入单个的map输出文件中。为了读取map的输出部分，Reducers获取此文件的连续区域。当map输出的数据太大而内存无法存放时，输出的排序子集可以保存到磁盘，这些磁盘文件被合并后，生成最终的输出文件。
sort shuffle有两个不同的输出路径来产生map的输出文件：

序列化排序(Serialized sorting)
在使用序列化排序时，需要满足以下3个条件：

shuffle不指定聚合（aggregation）或输出排序方法。

shuffle的序列化程序支持序列化值的重定位（KryoSerializer和Spark SQL的自定义序列化程序目前支持此操作）。

shuffle产生小于16777216个输出分区。

反序列化排序(Deserialized sorting)
用来处理所有其他情况。

Sort Shuffle Writer
· 每个map任务都会产生一个shuffle数据文件，和一个Index文件

· 通过外部排序类ExternalSorter对数据进行排序

· 若map-side需要进行合并（combine）操作，数据将会按key和分区进行排序，若没有合并操作数据只会根据分区进行排序。

参考

https://blog.csdn.net/zg_hover/article/details/73018918

https://blog.csdn.net/duan_zhihua/article/details/71190682
---------------------
作者：菜鸟级的IT之路
来源：CSDN
原文：https://blog.csdn.net/WYpersist/article/details/79715503
版权声明：本文为博主原创文章，转载请附上博文链接！