SPARK 第三方库不可序列化问题Task not serializable Caused by: java.io.NotSerializableException

Spark 中的RDD操作如map和filter要求函数可序列化。当函数涉及不可序列化的第三方库对象时,可通过包装对象并使用`transient`注解来解决。例如,Google的HyperLogLogPlusPlus不支持序列化,可以创建一个包装类,将hll变量声明为`transient`。若需保存数据,需重写`writeObject`和`readObject`方法。参考链接提供详细解决方案。
摘要由CSDN通过智能技术生成

在RDD 中的map,filter等中的函数,都会被序列化后,再发送到各个节点去,所以需要map或者filter中的函数可以进行序列化,

如果函数中依赖于第三方jar包生成的对象,但是第三方jar中类并不可以序列化,则可以用将第三方的对象进行包装,加上transient注解

 

package bigdata.zetaskech

import java.io.{ObjectInputStream, ObjectOutputStream}

import com.google.zetasketch.HyperLogLogPlusPlus

class HyperLogLog extends Serializable{

  @transient
  var hll:HyperLogLogPlusPlus[String] = new HyperLogLogPlusPlus.Builder().buildForStrings()

  val pathSet:mutable.Set[String] = mutable.Set[String]()

  var count:Long = 0

  def add(v:String):Unit = {
    hll.add(v)
    count = hll.longResult()
  }

  def merge(other: HyperLogLog):HyperLogLog = {
    hll.merge(other.hll)
    println(s"this ${hll.longResult()} other ${other.longResult}")
    this
  }

  def numValues :Long= {
    hll.numValues()
  }

  def longResult:Long = {
    hll.longResult()
  }


  private de
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值