spark 广播变量大数据_Spark入门教程(八)Spark共享变量: 广播变量和累加器

本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合!

前言:Spark是集群部署的,具有很多节点,节点之间的运算是相互独立的,Spark会自动把闭包中所有引用到的变量发送到每个工作节点上。虽然很方便,但有时也很低效,比如你可能会在多个并行操作中使用同一个变量,而Spark每次都要把它分别发送给每个节点。所以共享变量的存在是很有必要的。

累加器

讲概念之前先演示一个案例:该案例需求是累加count,对于每个X都进行一次count=count+1,代码毫无疑问是正确的,但是却没有得到正确的结果,为什么呢?

scala> val rdd = sc.parallelize(1 to 10,3)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at :24

scala> var count = 0

count: Int = 0

scala> rdd.map(x=> { count=count+1;println("x: "+x+" count: "+count) }).collect()

x: 1 count: 1

x: 2 count: 2

x: 3 count: 3

x: 4 count: 1

x: 5 count: 2

x: 6 count: 3

x: 7 count: 1

x: 8 count: 2

x: 9 coun

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值