Spark闭包，序列化，多线程、线程抢占（线程不安全）问题

qzWsong

已于 2023-01-04 16:47:51 修改

阅读量618

点赞数

分类专栏： spark 文章标签： java jvm 开发语言

于 2021-02-03 12:46:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/java_creatMylief/article/details/113596273

版权

spark 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

方案一
new Object(); // 需要实现序列化

map(x=>{
	引用外边Object
})

结果
同一个Executor不同线程调用的Object为同一个
但是 多个Executor 之间不是同一个，

Object先在driver创建 然后序列化，然后在Executor里反序列化
--------------------------------

方案二
new Class(); // 需要实现序列化

map(x=>{
	引用外边Class
})
结果
每个线程中的Class都是一个新的。
Object先在driver创建 然后序列化，然后在Executor里反序列化
--------------------------------

方案三
map(x=>{
	内部创建Object（不需要序列化）
})
结果
同一个Executor不同线程调用的Object为同一个
但是 多个Executor 之间不是同一个
Object在Executor里创建，不在Driver端创建
--------------------------------

方案四
map(x=>{
	内部创建Class（不需要序列化）
})
结果
每次map中没循环一次都是一个新的
Object在Executor里创建，不在Driver端创建

精华：

问题：如果一个公用的类我们到底是用class还是object，是放到里边还是放到外边？？？？？？？

解答:
1、如果用object，无论放在内部调用还是外部调用，同一Executor中多个并行task（多个线程）是用的同一个对象。会有多线程的问题（线程抢占），访问同一个公共资源容易出问题，所以需要加锁（synchronized）或者使用线程安全的对象(其实现方式也是加锁)。这样会影响效率。但是如果这个公用的类只用来读取他本身的数据，不进行修改操作。那就可以用这两种方式

2、如果用class，无论放在内部调用还是外部调用，同一Executor中多个并行task（多个线程）是用的不是同一个对象。不会有多线程的问题（线程抢占）。所以如果这个公用的类需要处理的逻辑很复杂，我们就用这两种。

3、如果用 class放在内部一定要用mapPartitions()而不要用map(),前者每个分区创建一次，后者每次循环创建一次。

总结:

1、公共的类只是定义了一些成员变量用来读取，或者没有定义任何的成员变量，全是内部方法的局部变量。那么用方案三内部创建Object（不需要序列化，不会出现线程问题）

2、公共的类逻辑复杂，其中的多个方法调用相同的成员变量，那么需要用方案二，如果又不好放在外部只能放在内部，那么需要用方案四的升级版 map===>mapPartitions，foreach===>foreachPartition

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。