13 Spark on RDD 全局累加器

最新推荐文章于 2024-07-30 22:22:52 发布

lucklilili

最新推荐文章于 2024-07-30 22:22:52 发布

阅读量386

点赞数

分类专栏： Apache Spark 文章标签： spark p2p linq

本文链接：https://blog.csdn.net/lucklilili/article/details/122289008

版权

Apache Spark 专栏收录该内容

31 篇文章 3 订阅

订阅专栏

本文介绍了Spark中的核心数据结构——累加器和广播变量，重点讲解了累加器在分布式计算中如何实现变量的全局汇总。通过示例展示了未使用累加器时，变量无法在Driver端聚合；而使用累加器后，Executor端的变量更新能够正确地反映到Driver端，实现了10的累加结果。累加器在异常监控、调试和计数场景中非常有用。

摘要由CSDN通过智能技术生成

Spark的三大核心数据结构：RDD、累加器（只写不读）、广播变量（只读不写）

在spark应用程序中，我们经常会有这样的需求，如异常监控，调试，记录符合某特性的数据的数目，这种需求都需要用到计数器，如果一个变量不被声明为一个累加器，那么它将在被改变时不会再driver端进行全局汇总，即在分布式运行时每个task运行的只是原始变量的一个副本，并不能改变原始变量的值，但是当这个变量被声明为累加器后，该变量就会有分布式计数的功能。

来个简单的例子，看为什么要使用累加器

object Acc {

  def main(args: Array[String]): Unit = {
    val sparConf = new SparkConf().setMaster("local").setAppName("Acc")

    val sc = new SparkContext(sparConf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))

    var sum = 0
    rdd.foreach(
      num => {
        sum += num
      }
    )
    println("sum = " + sum)
    
    sc.stop()
  }
}

sum = 0

Process finished with exit code 0

累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量，在Executor 端的每个 Task 都会得到这个变量的一份新的副本，每个 task 更新这些副本的值后，传回 Driver 端进行 merge。

使用累加器后：

object Acc {

  def main(args: Array[String]): Unit = {
    val sparConf = new SparkConf().setMaster("local").setAppName("Acc")

    val sc = new SparkContext(sparConf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))

    val sumAcc = sc.longAccumulator("sum")

    rdd.foreach(
      num => {
        sumAcc.add(num)
      }
    )

    println(sumAcc.value)

    sc.stop()
  }
}

sum = 10

Process finished with exit code 0

lucklilili

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录