spark2.x中使用累加器

最新推荐文章于 2024-02-23 20:05:17 发布

奔跑的max蜗牛

最新推荐文章于 2024-02-23 20:05:17 发布

阅读量2.2k

点赞数 1

分类专栏： spark 文章标签： Accumulator

本文链接：https://blog.csdn.net/qq_34896163/article/details/86528276

版权

spark 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

spark1.X和2.X定义累加器的方式是不同的：

累加器的作用：可以实现一个变量在不同的executor端能保持状态的累加。

使用累加器的代码实现累加：

 def main(args: Array[String]): Unit = {
    val ssc = SparkSession.builder().appName("ac").master("local[*]").getOrCreate()
    val sc = ssc.sparkContext
    val arr = Array[Int](1,2,3)
    val arrRDD = sc.parallelize(arr)
    val acc = sc.longAccumulator("accu")
    val res = arrRDD.map(t=>{
      acc.add(1L)
    })
    res.count()
    print(acc.value)

  }

这里定义了一个累加器，因为arrRDD中有3的元素，所以这里的.add方法会连续调用3次，所以这里的结果就是3

不适用累加器的代码实现累加：

  def main(args: Array[String]): Unit = {
    val ssc = SparkSession.builder().appName("ac").master("local[*]").getOrCreate()
    val sc = ssc.sparkContext
    val arr = Array[Int](1,2,3)
    val arrRDD = sc.parallelize(arr)
    var ac = 0
    val acc = sc.longAccumulator("accu")
    val res = arrRDD.map(t=>{
      ac+=1
    })
    res.count()
    println(ac)


  }

这里最后输入的值是0，为什么是0？主要是因为map算子中的计算过程是在executor端进行的，但是ac是在driver端定义的，所以driver端的ac是接收不到executor端计算过的ac的值。

使用累加器注意的事项：

防止重复累加：

  def main(args: Array[String]): Unit = {
    val ssc = SparkSession.builder().appName("ac").master("local[*]").getOrCreate()
    val sc = ssc.sparkContext
    val arr = Array[Int](1,2,3)
    val arrRDD = sc.parallelize(arr)
    var ac = 0
    val acc = sc.longAccumulator("accu")
    val res = arrRDD.map(t=>{
      acc.add(1L)
    })
    res.count()
    println(acc.value)
    res.collect()
    print(acc.value)

  }

结果为 3和6，也就是这里出现了重复累加的操作，主要是因为这里连续两次调用了action算子，所以这里累加器进行了两次重复的累加，也就是说，累加器实在遇到action算子的时候才进行累加操作的。

正确的写法：在action之前加上cache操作

  def main(args: Array[String]): Unit = {
    val ssc = SparkSession.builder().appName("ac").master("local[*]").getOrCreate()
    val sc = ssc.sparkContext
    val arr = Array[Int](1,2,3)
    val arrRDD = sc.parallelize(arr)
    var ac = 0
    val acc = sc.longAccumulator("accu")
    val res = arrRDD.map(t=>{
      acc.add(1L)
    })
    res.cache().count()
    println(acc.value)
    res.collect()
    print(acc.value)

  }