什么是Kryo序列化?
Kryo序列化是Saprk支持的一种序列化机制,用来序列化类。在Spark作业中,需要你手动设置。
Kryo序列化机制应用常场景:
1.持久化RDD时进行序列化(比如:内存持久化 + 序列化。 详见笔者文章spark性能调优之RDD持久化) 每个executor分配了多个task,每个task对应有个partition,在将每个RDD partition序列化成一个大的字节数组的时候,就可以使用kyro进一步优化序列化的速率和性能。
2.算子函数中使用到外部变量(详见笔者文章spark性能调优之Broadcast广播大变量)。
3.Shuffle的时候也会用到Kryo序列化 。在进行stage之间的task的shuffle操作时,上一个stage生成的file文件,会通过网络传输拉取文件,此时,这些file文件既然要通过网络传输,也必然是要序列化的,尽可以使用kyro优化序列化。
java序列化机制优缺点:
默认情况,spark内部使用的是java序列化机制 – ObjectInStream/ObjectOutStream,对象输入/输出流机制来进行序列化。
java序列化机制的好处:处理起来很方便,不需要人为做什么,只要你在算子里使用的变量实现serializable接口即可。
java序列化机制的缺点:这种序列化的速度慢;序列化后的数据占用内存空间还是很大。
Kryo序列化机制优缺点:
Sp