在spark中4个地方用到了序列化:
1、算子中用到了driver定义的外部变量的时候
2、将自定义的类型作为RDD的泛型类型,所有的自定义类型对象都会进行序列化
3、使用可序列化的持久化策略的时候。比如:MEMORY_ONLY_SER,spark会将RDD中每个分区都序列化成一个大的字节数组。
4、shuffle的时候
任何分布式系统中,序列化都扮演着一个很重要的角色。如果使用的序列化技术操作很慢,或者序列化之后数据量还是很大的话,那么会严重影响分布式系统的性能。
spark使用的默认序列化机制是java提供的序列化机制,即基于ObjectInputStream和 ObjectOutputStream的序列化机制。
这种序列化机制使用起来便捷,只要你的类实现了Serializable接口,那么都是可以序列化的。而且Java序列化机制是提供了自定义序列化支持的,只要你实现Externalizable接口即可实现自己的更高性能的序列化算法。但是这种方式的性能并不是很高,序列化的速度也相对较慢,并且序列化之后数据量也是比较大,占用较多的内存空间。
除了默认使用的序列化机制以外,spark还提供了另一种序列化机制,Kryo序列化机制。
这种序列化机制比java的序列化机制更快,并且序列化之后的数据占用空间更少,通常比java序列化小10倍。那么Kryo序列化机制为什么不是默认机制?原因是即使有些类实现了Seriralizable接口它也不一定能进行序列化,而且如果你想实现某些类的序列化,需要在spa