慢慢摸索了有段时间啦,有个问题一直不是特别懂,就是在执行作业的时候,有时候会抛出task not serializable的异常,就是rdd的map之类的操作时引用了外部的变量。
之前也查过很多次了,原因大概理解,task从driver节点分发到子节点计算的时候,会先序列化,子节点收到后反序列化,所以出现异常时有几种解决方案,或者将class extends java.io.Serializable,或者用val(好像在哪看到过说val是默认支持序列化的?记不清了),或者把不能序列化的部分使用transient关键字修饰,之类的。
解决方法很多啦,然后最近写了一个这种东西:
trait CommonData extends java.io.Serializable {
...
}
trait CommonLogData extends CommonData {
def doSomething(rdd :RDD[SampleData]):RDD[SampleData] = {
...
}
}
object SampleData extends CommonLogData{
def method():Unit={
...
list.foreach(rdd => doSomething(rdd))
}
}
然后就抛异常啦~ 写的不是特别全,但大概是这样子的,还没搞懂为什么这样会抛异常。难道SampleData不是可以序列化的嘛?待填坑~~