Spark技术内幕：Shuffle Read的整体流程

最新推荐文章于 2023-03-03 16:45:57 发布

anzhsoft

最新推荐文章于 2023-03-03 16:45:57 发布

阅读量2.2w

点赞数 13

分类专栏： Spark 架构探索 Spark技术内幕文章标签： Spark Shuffle Shuffle Read

本文链接：https://blog.csdn.net/anzhsoft/article/details/42637969

版权

回忆一下，每个Stage的上边界，要么需要从外部存储读取数据，要么需要读取上一个Stage的输出；而下边界，要么是需要写入本地文件系统（需要Shuffle），以供childStage读取，要么是最后一个Stage，需要输出结果。这里的Stage，在运行时的时候就是可以以pipeline的方式运行的一组Task，除了最后一个Stage对应的是ResultTask，其余的Stage对应的都是ShuffleMap Task。

而除了需要从外部存储读取数据和RDD已经做过cache或者checkpoint的Task，一般Task的开始都是从ShuffledRDD的ShuffleRead开始的。本节将详细讲解Shuffle Read的过程。

先看一下ShuffleRead的整体架构图。

org.apache.spark.rdd.ShuffledRDD#compute 开始，通过调用org.apache.spark.shuffle.ShuffleManager的getReader方法，获取到org.apache.spark.shuffle.ShuffleReader，然后调用其read()方法进行读取。在Spark1.2.0中，不管是Hash BasedShuffle或者是Sort BasedShuffle，内置的Shuffle Reader都是 org.apache.spark.shuffle.hash.HashShuffleReader。核心实现：

 override def read(): Iterator[Product2[K, C]] = {
val ser =Serializer.getSerializer(dep.serializer)
// 获取结果
   val iter = BlockStoreShuffleFetcher.fetch(handle.shuffleId,startPartition, context, ser)
   // 处理结果
   val aggregatedIter: Iterator[Product2[K, C]] = if(dep.aggregator.isDefined) {//需要聚合
     if (dep.mapSideCombine) {//需要map side的聚合
       new InterruptibleIterator(context, dep.aggregator.get.combineCombinersByKey(
                            iter, context))
     } else {//只需要reducer端的聚合
       new InterruptibleIterator(context,dep.aggregator.get.combineValuesByKey(
                            iter, context))
    
}
    }else { // 无需聚合操作
       iter.asInstanceOf[Iterator[Product2[K,C]]].map(pair => (pair._1, pair._2))
    }
 
   // Sort the output if there is a sort ordering defined.

最低0.47元/天解锁文章

anzhsoft

关注

13
点赞
踩
14

收藏

觉得还不错? 一键收藏
16
评论
Spark技术内幕：Shuffle Read的整体流程

本文详细讲解Shuffle Read的整个过程，包括如何获得Block的元数据信息，进行网络，本地读取。通过一个整体的流程架构图，详细大家可以对整个过程有一个更加深刻的把握
复制链接

扫一扫

专栏目录