Spark闭包,序列化,多线程、线程抢占(线程不安全)问题

方案一
new Object(); // 需要实现序列化

map(x=>{
	引用外边Object
})

结果
同一个Executor不同线程调用的Object为同一个
但是 多个Executor 之间不是同一个,

Object先在driver创建 然后序列化,然后在Executor里反序列化
--------------------------------

方案二
new Class(); // 需要实现序列化

map(x=>{
	引用外边Class
})
结果
每个线程中的Class都是一个新的。
Object先在driver创建 然后序列化,然后在Executor里反序列化
--------------------------------

方案三
map(x=>{
	内部创建Object(不需要序列化)
})
结果
同一个Executor不同线程调用的Object为同一个
但是 多个Executor 之间不是同一个
Object在Executor里创建,不在Driver端创建
--------------------------------

方案四
map(x=>{
	内部创建Class(不需要序列化)
})
结果
每次map中没循环一次都是一个新的
Object在Executor里创建,不在Driver端创建

 精华:

问题:如果一个公用的类 我们到底是用class还是object,是放到里边还是放到外边???????

解答:
1、如果用object,无论放在内部调用还是外部调用 ,同一Executor中多个并行task(多个线程)是用的同一个对象会有多线程的问题(线程抢占),访问同一个公共资源容易出问题,所以需要加锁(synchronized)或者使用线程安全的对象(其实现方式也是加锁)。这样会影响效率。但是如果这个公用的类只用来读取他本身的数据,不进行修改操作。那就可以用这两种方式


2、如果用class,无论放在内部调用还是外部调用 ,同一Executor中多个并行task(多个线程)是用的不是同一个对象不会有多线程的问题(线程抢占)。所以如果这个公用的类需要处理的逻辑很复杂,我们就用这两种。

3、如果用 class放在内部 一定要用mapPartitions()而不要用map(),前者每个分区创建一次,后者每次循环创建一次。

总结:

1、公共的类只是定义了一些成员变量用来读取,或者没有定义任何的成员变量,全是内部方法的局部变量。那么用方案三 内部创建Object(不需要序列化,不会出现线程问题)

2、公共的类逻辑复杂,其中的多个方法调用相同的成员变量,那么需要用方案二,如果又不好放在外部只能放在内部,那么需要用方案四的升级版  map===>mapPartitions,foreach===>foreachPartition

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值