Spark技术内幕：Shuffle Read的整体流程

最新推荐文章于 2023-03-03 16:45:57 发布

anzhsoft

最新推荐文章于 2023-03-03 16:45:57 发布

阅读量2.2w

点赞数 13

分类专栏： Spark 架构探索 Spark技术内幕文章标签： Spark Shuffle Shuffle Read

本文链接：https://blog.csdn.net/anzhsoft/article/details/42637969

版权

本文详细探讨了Spark中Shuffle Read的过程，从ShuffledRDD的compute开始，介绍如何通过ShuffleManager获取ShuffleReader，以及HashShuffleReader的核心实现。讨论了数据读取策略，包括本地读取和远程读取的细节，如并发限制和数据分块策略，旨在优化网络带宽使用和减少请求时间。此外，还分析了不同类型的Shuffle Block Manager在获取Block数据时的差异，包括Hash Based和Sort Based Shuffle的实现方式。

摘要由CSDN通过智能技术生成

回忆一下，每个Stage的上边界，要么需要从外部存储读取数据，要么需要读取上一个Stage的输出；而下边界，要么是需要写入本地文件系统（需要Shuffle），以供childStage读取，要么是最后一个Stage，需要输出结果。这里的Stage，在运行时的时候就是可以以pipeline的方式运行的一组Task，除了最后一个Stage对应的是ResultTask，其余的Stage对应的都是ShuffleMap Task。

而除了需要从外部存储读取数据和RDD已经做过cache或者checkpoint的Task，一般Task的开始都是从ShuffledRDD的ShuffleRead开始的。本节将详细讲解Shuffle Read的过程。

先看一下ShuffleRead的整体架构图。

org.apache.spark.rdd.ShuffledRDD#compute 开始，通过调用org.apache.spark.shuffle.ShuffleManager的getReader方法，获取到org.apache.spark.shuffle.ShuffleReader，然后调用其read()方法进行读取。在Spark1.2.0中，不管是Hash BasedShuffle或者是Sort BasedShuffle，内置的Shuffle Reader都是 org.apache.spark.shuffle.hash.HashShuffleReader。核心实现：

 override def read(): Iterator[Product2[K, C]] = {
val ser =Serializer.getSerializer(dep.serializer)
// 获取结果
   val iter = BlockStoreShuffleFetcher.fetch(handle.shuffleId,startPartition, context, ser)
   // 处理结果
   val aggregatedIter: Iterator[Product2[K, C]] = if(dep.aggregator.isDefined) {//需要聚合
     if (dep.mapSideCombine) {//需要map side的聚合
       new InterruptibleIterator(context, dep.aggregator.get.combineCombinersByKey(
                            iter, context))
     } else {//只需要reducer端的聚合
       new InterruptibleIterator(context,dep.aggregator.get.combineValuesByKey(
                            iter, context))
    
}
    }else { // 无需聚合操作
       iter.asInstanceOf[Iterator[Product2[K,C]]].map(pair => (pair._1, pair._2))
    }
 
   // Sort the output if there is a sort ordering defined.