transformation算子基本原理三

最新推荐文章于 2022-11-24 11:00:00 发布

huyang0101

最新推荐文章于 2022-11-24 11:00:00 发布

阅读量1k

点赞数

分类专栏： spark算子基本原理文章标签： spark 大数据

本文链接：https://blog.csdn.net/huyang0101/article/details/122171911

版权

本文详细探讨了Spark中的groupbykey、reducebykey、foldbykey和aggregatebykey四个算子的工作原理，从源码层面分析了它们如何调用combineByKeyWithClassTag并进行数据聚合。重点讲解了各个算子的合并逻辑差异，如groupbykey将相同key的元素合并到Iterable中，reducebykey和foldbykey在聚合时的不同，以及aggregatebykey提供的更高灵活性，允许不同的元素类型和分区内、区间合并逻辑。

摘要由CSDN通过智能技术生成

前言

本文主要从源码角度分析下groupbykey、reducebykey、foldbykey、aggregatebykey四个算子的基本原理。他们都是PairRDDFunctions的成员方法，最终调用combineByKeyWithClassTag，生成ShuffledRDD。所以先得理解combineByKeyWithClassTag

combineByKeyWithClassTag

combineByKeyWithClassTag的作用是根据key聚合，然后根据传入的逻辑对聚合的value进行计算。具体细节咱们来分析源码

 def combineByKeyWithClassTag[C](
      createCombiner: V => C,
      mergeValue: (C, V) => C,
      mergeCombiners: (C, C) => C,
      partitioner: Partitioner,
      mapSideCombine: Boolean = true,
      serializer: Serializer = null)(implicit ct: ClassTag[C]): RDD[(K, C)] = self.withScope {
   
    // 省去非核心代码
    // ...
    
    val aggregator = new Aggregator[K, V, C](
      self.context.clean(createCombiner),
      self.context.clean(mergeValue),
      self.context.