[以浪为码]Spark源码阅读03 - 序列化介绍 serializer

本文详细介绍了Spark中的序列化模块,重点关注Serializer、SerializerInstance和KryoSerializer的实现。文章阐述了序列化在RDD和shuffle中的作用,解释了为何Serializer是一个构建者模式,并分析了Java序列化和Kryo序列化的工作原理。同时,提到了SerializerManager如何为不同组件配置序列化选项。
摘要由CSDN通过智能技术生成

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013054888/article/details/90237348

系列文章专栏目录:小浪阅读 Spark 源码

序列化模块为 Spark 的 RDD 与 shuffle 模块提供可拔插的序列器。在包 org.apache.spark.serializer 大致的类结构如下:

在这里插入图片描述

序列器 Serializer

org.apache.spark.serializer.Serializer 是一个序列器,准确来说是一个序列化器构建者。因为一些序列化库不是线程安全的,Serializer 被用于创建 org.apache.spark.serializer.SerializerInstance 去做实际的序列化工作并且保证SerializerInstance在同一时间只有一个线程能访问。

Serializer 的实现类应该实现:

  1. 一个无参数的构造器或者有一个 SparkConf 的构造器,如果两者都被定义了,则后者被优先使用。
  2. Java 序列化接口。也就是说 Serializer 本身也能被序列化。

注意序列化器不需要在不同的 Spark 版本之间兼容。序列化的数据只是在一个 Spark app 中使用。

Serializer 类如下,具体看注释:

code 1

abstract class Serializer {
   

  /**
   * 反序列化时使用的类加载器,要保证子类优先使用该类加载器。
   */
  @volatile protected var defaultClassLoader: Option[ClassLoader] = None

  /**
   * 设置 defaultClassLoader。
   *
   * @return this Serializer object
   */
  def setDefaultClassLoader(classLoader: ClassLoader): Serializer = {
   
    defaultClassLoader = Some(classLoader)
    this
  }

  /** 创建一个新的 [[SerializerInstance]]. */
  def newInstance(): SerializerInstance

  /**
   * 参数如果是 True, 则表示该序列化器支持重新定位他的序列化对象,否则则不行。
   * 如果支持,这表示在流中输出的被序列化的对象的字节可以进行排序。这相当于对象排序后再进行序列化。
   * 该属性现在被用于判断 shuffle 使用哪个 shuffleWriter。具体有机会再说。可以看博文 https://blog.csdn.net/qq_26222859/article/details/81454620
   *
   */
  private[spark] def supportsRelocationOfSerializedObjects: Boolean = false
}

下面看他的一个实现类 org.apache.spark.serializer.JavaSerializer

序列器的实现 JavaSerializer

现在来看看序列器的一个简单实现 org.apache.spark.serializer.JavaSerializer,即使用原生 Java 序列化。

code 2

class JavaSerializer(conf: SparkConf) extends Serializer with Externalizable {
   
  private var counterReset = conf.getInt("spark.serializer.objectStreamReset", 100)
  private var extraDebugInfo = conf.getBoolean("spark.serializer.extraDebugInfo", true)

  protected def this() = this(new SparkConf())  // For deserialization only

  override def newInstance(): SerializerInstance = {
   
    val classLoader = defaultClassLoader.getOrElse(Thread.currentThread.getContextClassLoader)
    new JavaSerializerInstance(counterReset, extraDebugInfo, classLoader)
  }

  override def writeExternal(out: ObjectOutput): Unit = Utils.tryOrIOException {
   
    out.writeInt(counterReset)
    out.writeBoolean(extraDebugInfo)
  }

  override def readExternal(in
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值