Spark 累加器

最新推荐文章于 2024-06-02 10:08:44 发布

As a layman

最新推荐文章于 2024-06-02 10:08:44 发布

阅读量219

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_41634974/article/details/103710904

版权

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Spark累加器

val rdd = sc.textFile...
var i=0
val rdd2 = rdd1.map(one=>{
	i+=1
	one
}
rdd2.collect()
println(*i=*+1)

下面代码中输出i是多少？

package testScalaSpark

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

object AccumulatorTest {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder().appName("test").master("local").getOrCreate()
    val sc= spark.sparkContext

    val rdd = sc.textFile("./data/words")
    var i =0
    var rdd2 = rdd.map(one=>{
      i+=1
      //println(s"execultor $i")
      one
    })
    rdd2.collect()

    println(s"$i")

  }

}

结果是0
如果我们把map中的取消注释println(s"execultor $i")
会发现在map中，i是累加的，但是最后打印的i 还是0

如图
在这里插入图片描述
在Driver上·定义i=0，然后发送到task到executor中，在 executor中i累加。因为最后的println是在Driver上的，所以打印的i还是0

所以需要将上图中的 Executor中的i累加的值在返回Driver中，然后再求和，
累加器是分布式里统筹的概念，而不是全局变量的概念，因为是分布式的，多个节点之间不能称为全局
注意：累加器在Driver定义初始化，在1.6版本中Executor中不能获取累加器的值

package testScalaSpark

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.util.LongAccumulator

object AccumulatorTest {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder().appName("test").master("local").getOrCreate()
    val sc= spark.sparkContext
    val acc: LongAccumulator = sc.longAccumulator


    val rdd = sc.textFile("./data/words")
    var i =0

    var rdd2 = rdd.map(one=>{
      acc.add(1)
      println(s"Executor acc = ${acc.value} ")
      //println(s"execultor $i")
      one
    })
    rdd2.collect()

//    println(s"$i")
    println(s"acc = ${acc.value}")

  }

}

使用后还是可以在driver中打印出最新值的，而不是0

As a layman

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 累加器

Spark累加器val rdd = sc.textFile...var i=0val rdd2 = rdd1.map(one=>{ i+=1 one}rdd2.collect()println(*i=*+1)
复制链接

扫一扫

专栏目录