Accumulator累加器（一）

最新推荐文章于 2024-07-29 15:36:13 发布

爱你魔力转圈圈

最新推荐文章于 2024-07-29 15:36:13 发布

阅读量1.8k

点赞数

分类专栏： spark bigdata 文章标签： spark

本文链接：https://blog.csdn.net/qq_42706464/article/details/108440398

版权

bigdata 同时被 2 个专栏收录

70 篇文章

订阅专栏

spark

23 篇文章

订阅专栏

累加器

应用场景：Driver端定义一个共享变量，将数据累加到该变量上，如果直接用foreach或map等迭代算子，是无法将累加的变量返回到driver端，因为累加的过程发生在Executor端。一般用于计数场景下，变量往往声明在Driver端。

特性：变量在Driver端，累加的过程是在Executor端，在累加的过程Executor端是无法读取其值的，如果想读取其值，
只能在Driver端才能读取。
自定义累加器使用（此例子为非自定义累加器）：
1.创建一个Accumulator累加器的实例
2.通过sc.register()注册一个累加器
3.通过累加器实名.add来添加数据
4.通过累加器实例名.value来后去累加器的值

import org.apache.spark.{SparkConf, SparkContext}

object AccumlatorDemo {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setAppName(this.getClass.getName).setMaster("local[2]")
    val sc = new SparkContext(conf)
    val numsRdd = sc.parallelize(List(1,2,3,4,5,6))
    //var sum :Int= 0
    //numsRdd.map(x=>sum+=x)//0
    //numsRdd.foreach(x=>sum+=x)//0
    //sum=numsRdd.reduce(_+_)//21
    //使用accumulator实现给共享变量的聚合值的过程
    val sum =sc.accumulator(0)
    numsRdd.foreach(x=>sum+=x)
    println(sum)
    sc.stop()
  }
}