spark累加器

最新推荐文章于 2024-11-03 18:07:18 发布

小蜜蜂爱编程

最新推荐文章于 2024-11-03 18:07:18 发布

阅读量365

点赞数 3

分类专栏：大数据文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42936727/article/details/137033785

版权

大数据专栏收录该内容

24 篇文章 0 订阅

订阅专栏

应用场景

累加器的定义和应用场景很好理解，分布式场景下，我们希望对一个数进行全局性的累加，但由于我们的定义的普通全局变量，到各个分区只是一个副本，且不会影响driver处本身的全局变量值，在执行rdd计算的时候只是在各分区实现了自己的累加，并不能最终体现到driver定义的变量本身，因此spark引入了累加器，spark的累加器也是在各自的分区中累加，但在执行collect操作的时候会对各分区累加之和再做一次累加

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)
    rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10],2)
    #Spark提供的累加器变量，参数是初始值
    acmlt = sc.accumulator(0)
    def map_func(data):
        global acmlt
        acmlt +1
        print(acmlt)
    print(acmlt)

注意事项

在使用累加器时，需要注意的是，如果我们的rdd被释放掉了又重新构建（没有缓存会重新构建），这时累加器会多次工作，可能会导致非预期结果。

小蜜蜂爱编程

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小蜜蜂爱编程 CSDN认证博客专家 CSDN认证企业博客

码龄6年

143: 原创

13万+: 周排名

8万+: 总排名

10万+: 访问

: 等级

2351: 积分

949: 粉丝

819: 获赞

19: 评论

671: 收藏

私信

关注

热门文章

分类专栏

go/golang基础及实践 34篇
linux 31篇
大数据 24篇
redis 3篇
brpc 14篇
云计算 3篇
云原生 1篇
服务器编程 8篇
设计模式 1篇
算法 4篇
shell脚本 16篇
openssl 1篇
命令行 7篇
进程 2篇
HTTP 1篇
C语言 4篇
C++ 2篇

最新评论

记录一个狗血的docker问题
CSDN-Ada助手: 云原生入门技能树或许可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
记录一个狗血的docker问题
「已注销」: 本来拉国外的基本都不行拉国内的不就好了
go语言基础 -- 反射
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文。
spark sql执行引擎原理及配置
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。
go语言基础 -- json的序列化
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。