Spark运行程序异常信息: org.apache.spark.SparkException: Task not serializable 解决办法

错误信息:

    17/05/20 18:51:39 ERROR JobScheduler: Error running job streaming job 1495277499000 ms.0
    org.apache.spark.SparkException: Task not serializable
        at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:298)
        at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:288)
        at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:108)


问题原因:再对RDD进行操作时引用了类的成员变量而该成员变量无法被序列化所导致的

  例如如下代码:   

    object Test2 extends App{
       val conf = new SparkConf().setAppName("RVM").setMaster("local")
       val sc = new SparkContext(conf)
       val matrix = new DenseMatrix(2,2,Array(1.0,2,3,4))
       new Test(sc,matrix).run()
     
    }
     
    class Test(scc:SparkContext,PHI:DenseMatrix) extends Serializable{
       val ts = 0.1
       def run(): Unit ={
          val rdds = scc.parallelize(0 to 3)
          val a = rdds.map(
             x =>{
                PHI.toArray.apply(x)*x
             }
          )
          a.collect.foreach(println(_))
       }
    }


      这一段代码运行确实会报错,而且报错如预期一样,最开始以为是因为DenseMatrix不能序列化导致的,结果将DenseMatrix换成了其它类型如Double等基本类型同样会报错,然后发现是scc(SparkContext)不能序列化导致的错误。

      解决办法是在不能序列化的变量前添加注释@transient告诉编译器该变量不需要进行序列化。网上还有其它的一些处理方法暂时未深入研究,

   如果还是没有得到解决:

  可以试下如下方法:

  

出现“org.apache.spark.SparkException: Task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有:

    如果可以,将依赖的变量放到map、filter等的参数内部定义。这样就可以使用不支持序列化的类;
    如果可以,将依赖的变量独立放到一个小的class中,让这个class支持序列化;这样做可以减少网络传输量,提高效率;
    如果可以,将被依赖的类中不能序列化的部分使用transient关键字修饰,告诉编译器它不需要序列化。
    将引用的类做成可序列化的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值