版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013054888/article/details/90237348
系列文章专栏目录:小浪阅读 Spark 源码
文章目录
序列化模块为 Spark 的 RDD 与 shuffle 模块提供可拔插的序列器。在包 org.apache.spark.serializer
大致的类结构如下:
序列器 Serializer
org.apache.spark.serializer.Serializer
是一个序列器,准确来说是一个序列化器构建者。因为一些序列化库不是线程安全的,Serializer
被用于创建 org.apache.spark.serializer.SerializerInstance
去做实际的序列化工作并且保证SerializerInstance
在同一时间只有一个线程能访问。
Serializer 的实现类应该实现:
- 一个无参数的构造器或者有一个
SparkConf
的构造器,如果两者都被定义了,则后者被优先使用。 - Java 序列化接口。也就是说
Serializer
本身也能被序列化。
注意序列化器不需要在不同的 Spark 版本之间兼容。序列化的数据只是在一个 Spark app 中使用。
Serializer
类如下,具体看注释:
code 1
abstract class Serializer {
/**
* 反序列化时使用的类加载器,要保证子类优先使用该类加载器。
*/
@volatile protected var defaultClassLoader: Option[ClassLoader] = None
/**
* 设置 defaultClassLoader。
*
* @return this Serializer object
*/
def setDefaultClassLoader(classLoader: ClassLoader): Serializer = {
defaultClassLoader = Some(classLoader)
this
}
/** 创建一个新的 [[SerializerInstance]]. */
def newInstance(): SerializerInstance
/**
* 参数如果是 True, 则表示该序列化器支持重新定位他的序列化对象,否则则不行。
* 如果支持,这表示在流中输出的被序列化的对象的字节可以进行排序。这相当于对象排序后再进行序列化。
* 该属性现在被用于判断 shuffle 使用哪个 shuffleWriter。具体有机会再说。可以看博文 https://blog.csdn.net/qq_26222859/article/details/81454620
*
*/
private[spark] def supportsRelocationOfSerializedObjects: Boolean = false
}
下面看他的一个实现类 org.apache.spark.serializer.JavaSerializer
序列器的实现 JavaSerializer
现在来看看序列器的一个简单实现 org.apache.spark.serializer.JavaSerializer
,即使用原生 Java 序列化。
code 2
class JavaSerializer(conf: SparkConf) extends Serializer with Externalizable {
private var counterReset = conf.getInt("spark.serializer.objectStreamReset", 100)
private var extraDebugInfo = conf.getBoolean("spark.serializer.extraDebugInfo", true)
protected def this() = this(new SparkConf()) // For deserialization only
override def newInstance(): SerializerInstance = {
val classLoader = defaultClassLoader.getOrElse(Thread.currentThread.getContextClassLoader)
new JavaSerializerInstance(counterReset, extraDebugInfo, classLoader)
}
override def writeExternal(out: ObjectOutput): Unit = Utils.tryOrIOException {
out.writeInt(counterReset)
out.writeBoolean(extraDebugInfo)
}
override def readExternal(in