Spark中Task not Serialize问题
1.问题原因
spark处理的数据单元为RDD,当我们对RDD做诸如map,filter等操作的时候,其执行是在excutor上完成的。但是,如果我们在driver中定义了一个变量,在map等操作中使用,则这个变量就要被分发到各个excutor,因为driver和excutor运行在不同的jvm中,势必会涉及到对象的序列化与反序列化,如果这个变量没法序列化就会报异常。(如果引用的对象可以序列...
原创
2019-09-15 15:12:28 ·
250 阅读 ·
0 评论