累加器 - 分布式共享写变量

最新推荐文章于 2024-07-18 10:26:56 发布

阿年、嗯啊

最新推荐文章于 2024-07-18 10:26:56 发布

阅读量994

点赞数 20

分类专栏： Spark 文章标签：分布式 Spark 累加器分布式共享写变量

本文链接：https://blog.csdn.net/qq_45796486/article/details/136088095

版权

Spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

水善利万物而不争，处众人之所恶，故几于道💦

文章目录

概念

因为RDD是可分区的，每个分区在不同的节点上运行，如果想要对某个值进行全局累加，就需要将每个task中的值取到然后进行累加，而各个Executor之间是不能相互读取对方数据的，所以就没办法在task里面进行最终累加结果的输出，所以就需要一个全局统一的变量来处理。

用下面的代码举例：

@Test
def test(): Unit = {

  import org.apache.spark.{SparkConf, SparkContext}

  val conf: SparkConf = new SparkConf().setAppName("SparkCoreStudy").setMaster("local[4]")
  val sc = new SparkContext(conf)

  var sum = 0

  val rdd = sc.parallelize(List(10,20,30,40,60))

  rdd.foreach(x=>{
    sum+=x
  })
    println(sum)
}

以上代码的输出结果是 0
分析：因为函数体外的代码是在Driver端执行的，函数体内的代码是在task里面执行的，而上述代码中创建sum变量是在Driver端创建的，函数体内的代码sum+=x是在task里面执行的，task里面对sum进行了累加，然后在Driver端打印sum的值，打印出来的还是Driver端sum的初始值0

以下代码是用累加器实现的相同功能

@Test
def test(): Unit = {

  import org.apache.spark.{SparkConf, SparkContext}

  val conf: SparkConf = new SparkConf().setAppName("SparkCoreStudy").setMaster("local[4]")
  val sc = new SparkContext(conf)

  // 创建累加器从sparkContext中
  val acc = sc.longAccumulator("sumAcc")


  val rdd = sc.parallelize(List(10,20,30,40,60))

  //    rdd.foreach(x=>{
  //      sum+=x
  //    })

  // 将要累加的变量放到累加器中
    rdd.foreach(x=>{acc.add(x)})

  // 打印累加器的值
  println(acc.value)
  
}

上面代码的输出结果是160
分析：上述代码中从SparkContext中创建了longAccumulator累加器，起名为sumAcc，然后在task中执行累加的时候调用改累加器的add()方法将要累加的变量加入到累加器中，最后在driver端调用累加器的value方法取出累加器的值，所以就会得出160

总结：
累加器的创建：val acc = sc.longAccumulator(“sumAcc”)
向累加器中添加数据：acc.add(x)
取出累加器中的数据：acc.value

注意：

Executor端不要获取累加器的值，那样取到的那个值不是累加器最终的累加结果，因为累加器是一个分布式共享的写变量
使用累加器时（也就是向累加器中添加要累加的变量的时候）要将其放在行动算子中。因为在行动算子中这个累加器的值可以保证绝对可靠，如果在转换算子中使用累加器，假如这个spark应用程序有多个job，每个job执行的时候都会执行一遍转换算子，那么这个累加器就会被累加多次，这个值也就不准确了。所以累加器要在行动算子中使用。

应用

累加器在某些场景下可以避免shuffle。spark中自带的累加器有三个longAccumulator()、doubleAccumulator()和collectionAccumulator[]()，比较常用的是collectionAccumulator[]()

我们用累加器实现WordCount
下面是正常的WordCount代码：

  def main(args: Array[String]): Unit = {

    import org.apache.spark.{SparkConf, SparkContext}

    val conf: SparkConf = new SparkConf().setAppName("SparkCoreStudy").setMaster("local[*]")
    val sc = new SparkContext(conf)

    val rdd1 = sc.textFile("datas/wc.txt")

    val rdd2 = rdd1.flatMap(_.split(" "))

    val rdd3 = rdd2.map((_, 1))

    rdd3.reduceByKey(_ + _).collect().foreach(println)
    
    Thread.sleep(100000000)
  }

结果：
在这里插入图片描述查看web页面：

下面用collectionAccumulator[]()累加器实现，用累加器替换掉reduceByKey

def main(args: Array[String]): Unit = {

  import org.apache.spark.{SparkConf, SparkContext}

  val conf: SparkConf = new SparkConf().setAppName("SparkCoreStudy").setMaster("local[*]")
  val sc = new SparkContext(conf)

//    定义集合累加器，并声明累加器中存放的元素类型    可变的map，可变就是可以直接在原来的集合上修改不会返回新的集合
  val acc = sc.collectionAccumulator[mutable.Map[String,Int]]("accNum")

  val rdd1 = sc.textFile("datas/wc.txt")

  val rdd2 = rdd1.flatMap(_.split(" "))

  val rdd3 = rdd2.map((_, 1))

//    rdd3.reduceByKey(_ + _).collect().foreach(println)

  // 遍历每个二元元组
  rdd3.foreachPartition(it=>{
    // 定义一个map用来存放一个分区的累加结果
    val resMap =  mutable.Map[String,Int]()

    // 遍历分区的每个元素（hadoop,1）
    it.foreach(y=>{
      // 从resMap中取这个元素的key看有没有，没有的话返回0
      val num = resMap.getOrElse(y._1, 0)
      // 将取到的数和元素的标记1累加
      val num2 = num+y._2
      // 写回到map中
      resMap.put(y._1,num2)
    })

    // 将每个分区的累加结果添加到累加器中
    acc.add(resMap)

  })


  //    println(rdd4.collect())
  // 在driver端取到累加器的结果，这个结果是Java类型的list
  val res = acc.value

  // 添加 scala.collection.JavaConverters._ 用里面的asScala将Java类型的list转为Scala类型
  import scala.collection.JavaConverters._

  val scalaList = res.asScala

  //    将list里面的map压掉，剩下（）元组
  val flatten = scalaList.flatten

  //  以元组的key分组
  val grouped = flatten.groupBy(_._1)

  // 得出每个分组内的次数和
  val res_end = grouped.map(x => {
    // 将元组中的第二个次数来一次map然后sum,取出每个单词的频率
    val sum = x._2.map(y => y._2).sum
    (x._1, sum)
  })

  res_end.foreach(println)

  Thread.sleep(100000000)
}