Exception in thread "main" org.apache.spark.SparkException: Task not serializable异常

问题:Exception in thread "main" org.apache.spark.SparkException: Task not serializable异常




问题原因:


 所生成的任务对象需要序列化,以便的不同的节点进行传输,保证数据的正确性。

/

Java 串行化技术可以使你将一个对象的状态写入一个Byte 里,并且可以从其它地方把该Byte 流里的数据读出来,重新构造一个相同的对象。这种机制允许你将对象通过网络进行传播,并可以随时把对象持久化到数据库、文件等系统里。Java的串行化机制是RMI、EJB等技术的技术基础。用途:利用对象的串行化实现保存应用程序的当前工作状态,下次再启动的时候将自动地恢复到上次执行的状态。

序列化就是一种用来处理对象流的机制,所谓对象流也就是将对象的内容进行流化。可以对流化后的对象进行读写操作,也可将流化后的对象传输于网络之间。序列化是为了解决在对对象流进行读写操作时所引发的问题。

序列化的实现:将需要被序列化的类实现Serializable接口,然后使用一个输出流(如:FileOutputStream)来构造一个ObjectOutputStream(对象流)对象,接着,使用ObjectOutputStream对象的writeObject(Object obj)方法就可以将参数为obj的对象写出(即保存其状态),要恢复的话则用输入流。


以上内容来自于:http://blog.csdn.net/yakihappy/article/details/3979373 

/





解决方案:

Scala的object和class需要实现接口 Serializable 


/**
 * constructor the object
 */
objectLewa_device_report extendsSerializable {}


/**
 * @author Administrator
 * filepath    : String
 * originalfileRDD      : org.apache.spark.rdd.RDD[StringBuffer]
 * sqlcontext  :org.apache.spark.sql.SQLContext
 */
class Lewa_device_report( var filepath:String, val sparkcontext:org.apache.spark.SparkContext,val sqlcontext:org.apache.spark.sql.SQLContext)extends Serializable{}


查看一下API文档

关于SparkContext 

 


  

关于SQLconntext


问题出在了SparkContext上,该类没有序列化

解决:转换思路,传递的参数不要包含SparkContext 参数




2015年1月11日13:51:49

昨天在上海Intel的spark meetup上 paypal公司的戴云晶分享的spark讲解中 关于这个问题的解决方案,使用@Transient  和 implicit去解决,

@ Transient var nativeLogger = Logger.getRootLogger()
 
 implicit def logger = nativeLogger


但是, 我使用后依然出现问题:


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值