spark1.2.0源码分析之RDD的reduce操作

最新推荐文章于 2024-01-07 09:19:49 发布

Yobadman

最新推荐文章于 2024-01-07 09:19:49 发布

阅读量1.4k

点赞数

分类专栏： spark源码文章标签： spark 源码大数据 RDD

本文链接：https://blog.csdn.net/Yobadman/article/details/42550193

版权

本文深入探讨了Spark 1.2.0中RDD的reduce操作，该操作作为action触发计算。reduce通过processFunc（即reducePartition）对每个分区的数据应用迭代f函数，而mergeResult作为任务完成的回调函数，在JobWaiter类中实现，用于合并结果。

摘要由CSDN通过智能技术生成

reduce操作在RDD中属于action操作，伴随着sc.runJob的调用，源码如下（基于spark 1.2.0版本）：

  def reduce(f: (T, T) => T): T = {
    val cleanF = sc.clean(f)
    val reducePartition: Iterator[T] => Option[T] = iter => {
      if (iter.hasNext) {
        Some(iter.reduceLeft(cleanF))   //一个一个迭代，从左开始
      } else {
        None
      }
    }
    var jobResult: Option[T] = None
    val mergeResult = (index: Int, taskResult: Option[T]) => {  //当每个任务执行完后，都会返回一个这样的结果，index为分区的索引
      if (taskResult.isDefined) {
        jobResult = jobResult match {
          case Some(value) => Some(f(value, taskResult.get))   //第二个分区的结果与第一个分区的一起，再用f处理
          case None => taskResult  //当第一个任务完成时，会进入，taskResult 为第一个分区的结果
        }
      }
    }
    sc.runJob(this, reducePartition, mergeResult)   //任务的执行
    /