spark shuffle全过程源码梳理

最新推荐文章于 2023-08-17 14:08:55 发布

太晚了困

最新推荐文章于 2023-08-17 14:08:55 发布

阅读量349

点赞数

分类专栏： spark 文章标签： spark 算法

本文链接：https://blog.csdn.net/The_Inertia/article/details/116714312

版权

shuffle全过程理解

理解宽窄依赖

窄依赖（父RDD单个分区的计算不依赖于父RDD其他分区）：

父RDD的一个Partition只能对应子RDD的一个Partition。即父RDD的一个分区上的数据可以单独计算。

换句话说，子RDD的某个分区在计算时可以单独计算而不会依赖于父RDD其他Partition上的数据。如Filter,map。

宽依赖（父RDD单个分区的计算依赖于父RDD其他分区）：

父RDD的一个Partition无法单独计算，需要依赖于其他所有的Partition（依赖的不确定性）。表现为，shuffle read阶段，多个父RDD的数据，汇聚在同一个partition中计算。

Task分类：

分为ShuffleMapTask和ResultTask。

ShuffleMapTask需要将计算结果shuffle到下一个stage中。

ResultTask输出的则是result。

shuffle write：

总结起来：宽依赖划分了Stage，中间涉及了Shuffle过程，前一个stage的通过ShuffleMapTask进行Shuffle write，把数据存储在blockManager上面，并且把数据位置元信息上报到driver的mapOutTrack组件中，下一个stage根据数据位置元信息，进行 shuffle read，拉取上个stage的输出数据，进行数据处理。

https://blog.csdn.net/lidongmeng0213/article/details/106091148

ShuffleWriter类型

在shuffleMapTask的runTask方法中，获取shuffleWriter：

  override def getWriter[K, V](
      handle: ShuffleHandle,
      mapId: Int,
      context: TaskContext): ShuffleWriter[K, V] = {
   
    numMapsForShuffle.putIfAbsent(
      handle.shuffleId, handle.asInstanceOf[BaseShuffleHandle[_, _, _]].numMaps)
    val env = SparkEnv.get
    handle match {
   
      case unsafeShuffleHandle: SerializedShuffleHandle[K @unchecked, V @unchecked] =>
        new UnsafeShuffleWriter(
          env.blockManager

最低0.47元/天解锁文章

太晚了困

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark shuffle全过程源码梳理

理解宽窄依赖窄依赖（父RDD单个分区的计算不依赖于父RDD其他分区）：父RDD的一个Partition只能对应子RDD的一个Partition。即父RDD的一个分区上的数据可以单独计算。换句话说，子RDD的某个分区在计算时可以单独计算而不会依赖于父RDD其他Partition上的数据。如Filter,map。宽依赖（父RDD单个分区的计算依赖于父RDD其他分区）：父RDD的一个Partition无法单独计算，需要依赖于其他所有的Partition（依赖的不确定性）。表现为，shuffle read
复制链接

扫一扫

专栏目录