Spark源码解析之map，mapPartitions,filter

最后一瓶脉动

已于 2022-11-26 09:59:35 修改

阅读量527

点赞数

分类专栏：大数据框架啊文章标签： spark 大数据

于 2022-11-16 15:10:08 首次发布

本文链接：https://blog.csdn.net/weixin_43218601/article/details/127882875

版权

大数据框架啊专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近在复习spark,写一些笔记来记录复习的源码过程，以及使用一些源码手动实现算子的过程。

map算子

//这是一个简单的map方法Demo
object Demo1 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Demo1").setMaster("local[*]")
    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List(1, 2, 3, 4, 5))

    val result = rdd1.map(_ + "分")

    result.foreach(println)
    sc.stop()
  }
}

//这里是map的源码
点击map进入
  def map[U: ClassTag](f: T => U): RDD[U] = withScope {
    val cleanF = sc.clean(f)
    new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
  }


点击MapPartitionsRDD进入
private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag](
    var prev: RDD[T],
    f: (TaskContext, Int, Iterator[T]) => Iterator[U],  // (TaskContext, partition index, iterator)
    preservesPartitioning: Boolean = false,
    isFromBarrier: Boolean = false,
    isOrderSensitive: Boolean = false)

这里传入的参数
prev 父RDD
f 传入TaskContext，就是配置信息,然后传入分区编号,传入一个对迭代器操作的方法,其实就是传入了scala中的map方法。
preservesPartitioning 是否保留分区器,一般都是否。除非是pairRDD并且应用的方法没有改变key。
isFromBarrier 是否来自屏障RDD，这是Spark3中的新特性，好像是和机器学习相关的，没有仔细看
isOrderSensitive

mapPartitions算子

object Demo1 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Demo1").setMaster("local[*]")
    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List(1, 2, 3, 4, 5))
    
    val value = rdd1.mapPartitions(it=>it.map(_ + "分"))

    sc.stop()
  }
}

上边这是一个调用mapPartitions的例子,点进mapParttitions进入源码

  def mapPartitions[U: ClassTag](
      f: Iterator[T] => Iterator[U],
      preservesPartitioning: Boolean = false): RDD[U] = withScope {
    val cleanedF = sc.clean(f)
    new MapPartitionsRDD(
      this,
      (context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF(iter),
      preservesPartitioning)
  }

源码中,sc.clean(f)就是对传入的函数做了一个闭包检查，可以忽略它，把cleandF当成我们自己传入的逻辑就可以了。
可以看到mapPartitions也是新建了一个MapPartitionsRDD,里边就是和map的区别了,
在map中，对迭代器的操作是map(我们自己写的逻辑)，
这样就会导致迭代器每次map出一条数据就会调用一次我们传入的逻辑。
而mapPartitions直接调用了我们传入的逻辑，
这样每个分区的迭代器只会调用一次,这样就算迭代器里的逻辑还是调用map，我们传入的逻辑也就只调用了一次。