java的变量累加_Java Spark 简单示例（二）累加器广播变量

最新推荐文章于 2023-10-28 15:55:11 发布

拉面加点盐

最新推荐文章于 2023-10-28 15:55:11 发布

阅读量323

点赞数

文章标签： java的变量累加

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42354972/article/details/114254965

版权

广播变量在最后补充。

今天的示例主要介绍一下累加器的使用。Spark官方文档的Action介绍中有提到 foreach

foreach(func)：Run a function func on each element of the dataset. This is usually done for side effects such as updating an Accumulator or interacting with external storage systems.

Note: modifying variables other than Accumulators outside of the foreach() may result in undefined behavior. See Understanding closuresfor more details.

意思是说，调用foreach函数可以遍历rdd中的每一个元素，但是在foreach外部，不可以更新累加器以外的变量，否则会出现与期望值不符的结果。

例如，你想做一个简单求和计数，首先声明一个变量，然后在foreach内部增值。请注意，这样是行不通的。

官方文档中这样介绍：By default, when Spark runs a function in parallel as a set of tasks on different nodes, it ships a copy of each variable used in the function to each task. 默认情况下，当Spark以不同节点上的一组任务并行运行一个函数时，它会将该函数中使用的每个变量的副本发送给每个任务。

为了解决这个问题，除了之前示例中用过的reduce函数外，还可以引入累加器。

package c

最低0.47元/天解锁文章

拉面加点盐

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java的变量累加_Java Spark 简单示例（二）累加器广播变量

广播变量在最后补充。今天的示例主要介绍一下累加器的使用。Spark官方文档的Action介绍中有提到 foreachforeach(func)：Run a function func on each element of the dataset. This is usually done for side effects such as updating an Accumulator or int...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。