spark累加器

最新推荐文章于 2022-02-21 16:01:18 发布

幡然醒悟的研二狗-致敬所有受压迫的博士

最新推荐文章于 2022-02-21 16:01:18 发布

阅读量1.1k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_42307036/article/details/111386100

版权

spark 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

累加器：分布式只写共享变量

累加器是用来把Executor端变量信息聚合到Driver端。
在Driver程序种定义的变量，在Executor端的每一个task都会得到这个变量的一份新的副本，每个task更新这些副本后，传回Driver端进行merge

首先看一个不用累加器的案例

scala> val dataRDD = sc.makeRDD(1 to 4, 2)
dataRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at makeRDD at <console>:24

scala> dataRDD.glom().collect
res6: Array[Array[Int]] = Array(Array(1, 2), Array(3, 4))

scala> var sum = 0
sum: Int = 0

scala> dataRDD.foreach(i => sum = sum + i)

scala> println(sum)
0

可以看到一共两个分区，也就是两个task，每个task运行在不同的Executor端，在Driver端声明的sum变量，并不能在Executor端（dataRDD.foreach(i=>sum=sum+i)里面的"i=>sum=sum+i"就运行在Executor端）更新，因为sum不是一个累加器。
下面声明一个累加器

scala> val dataRDD = sc.makeRDD(1 to 4, 2)
dataRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at makeRDD at <console>:24

scala> dataRDD.glom().collect
res6: Array[Array[Int]] = Array(Array(1, 2), Array(3, 4))

scala> var sum = sc.longAccumulator("sum")
sum: org.apache.spark.util.LongAccumulator = LongAccumulator(id: 312, name: Some(sum), value: 0)

scala> dataRDD.foreach(sum.add(_))

scala> println(sum.value)
10

幡然醒悟的研二狗-致敬所有受压迫的博士

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
spark累加器

累加器：分布式只写共享变量累加器是用来把Executor端变量信息聚合到Driver端。在Driver程序种定义的变量，在Executor端的每一个task都会得到这个变量的一份新的副本，每个task更新这些副本后，传回Driver端进行merge首先看一个不用累加器的案例scala> val dataRDD = sc.makeRDD(1 to 4, 2)dataRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] a
复制链接

扫一扫

专栏目录