累加器
应用场景:Driver端定义一个共享变量,将数据累加到该变量上,如果直接用foreach或map等迭代算子, 是无法将累加的变量返回到driver端,因为累加的过程发生在Executor端。一般用于计数场景下,变量往往声明在Driver端。
特性: 变量在Driver端,累加的过程是在Executor端,在累加的过程Executor端是无法读取其值的,如果想读取其值,
只能在Driver端才能读取。
自定义累加器使用(此例子为非自定义累加器):
1.创建一个Accumulator累加器的实例
2.通过sc.register()注册一个累加器
3.通过累加器实名.add来添加数据
4.通过累加器实例名.value来后去累加器的值
import org.apache.spark.{SparkConf, SparkContext}
object AccumlatorDemo {
def main(args: Array[String]): Unit = {
val conf = new SparkConf()
conf.setAppName(this.getClass.getName).setMaster("local[2]")
val sc = new SparkContext(conf)
val numsRdd = sc.parallelize(List(1,2,3,4,5,6))
//var sum :Int= 0
//numsRdd.map(x=>sum+=x)//0
//numsRdd.foreach(x=>sum+=x)//0
//sum=numsRdd.reduce(_+_)//21
//使用accumulator实现给共享变量的聚合值的过程
val sum =sc.accumulator(0)
numsRdd.foreach(x=>sum+=x)
println(sum)
sc.stop()
}
}