spark 广播变量大数据_Spark入门教程（八）Spark共享变量：广播变量和累加器

最新推荐文章于 2021-07-06 16:30:56 发布

weixin_39611070

最新推荐文章于 2021-07-06 16:30:56 发布

阅读量118

点赞数

文章标签： spark 广播变量大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39611070/article/details/111485097

版权

本文全部手写原创，请勿复制粘贴、转载请注明出处，谢谢配合！

前言：Spark是集群部署的，具有很多节点，节点之间的运算是相互独立的，Spark会自动把闭包中所有引用到的变量发送到每个工作节点上。虽然很方便，但有时也很低效，比如你可能会在多个并行操作中使用同一个变量，而Spark每次都要把它分别发送给每个节点。所以共享变量的存在是很有必要的。

累加器

讲概念之前先演示一个案例：该案例需求是累加count，对于每个X都进行一次count=count+1，代码毫无疑问是正确的，但是却没有得到正确的结果，为什么呢？

scala> val rdd = sc.parallelize(1 to 10,3)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at :24

scala> var count = 0

count: Int = 0

scala> rdd.map(x=> { count=count+1;println("x: "+x+" count: "+count) }).collect()

x: 1 count: 1

x: 2 count: 2

x: 3 count: 3

x: 4 count: 1

x: 5 count: 2

x: 6 count: 3

x: 7 count: 1

x: 8 count: 2

x: 9 coun

最低0.47元/天解锁文章

weixin_39611070

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 广播变量大数据_Spark入门教程（八）Spark共享变量：广播变量和累加器

本文全部手写原创，请勿复制粘贴、转载请注明出处，谢谢配合！前言：Spark是集群部署的，具有很多节点，节点之间的运算是相互独立的，Spark会自动把闭包中所有引用到的变量发送到每个工作节点上。虽然很方便，但有时也很低效，比如你可能会在多个并行操作中使用同一个变量，而Spark每次都要把它分别发送给每个节点。所以共享变量的存在是很有必要的。累加器讲概念之前先演示一个案例：该案例需求是累加count，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。