本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合!
前言:Spark是集群部署的,具有很多节点,节点之间的运算是相互独立的,Spark会自动把闭包中所有引用到的变量发送到每个工作节点上。虽然很方便,但有时也很低效,比如你可能会在多个并行操作中使用同一个变量,而Spark每次都要把它分别发送给每个节点。所以共享变量的存在是很有必要的。
累加器
讲概念之前先演示一个案例:该案例需求是累加count,对于每个X都进行一次count=count+1,代码毫无疑问是正确的,但是却没有得到正确的结果,为什么呢?
scala> val rdd = sc.parallelize(1 to 10,3)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at :24
scala> var count = 0
count: Int = 0
scala> rdd.map(x=> { count=count+1;println("x: "+x+" count: "+count) }).collect()
x: 1 count: 1
x: 2 count: 2
x: 3 count: 3
x: 4 count: 1
x: 5 count: 2
x: 6 count: 3
x: 7 count: 1
x: 8 count: 2
x: 9 coun