- spark默认使用java的序列化,但是java序列化太重,且序列化后的对象比较大
- kryo序列化比较简洁,值存储数据本身,速度是Serializable的10倍,
-
弊端:支持的类型比较少
-
从2.0开始,Spark内部已经在使用kryo序列化,当RDD在Shuffle数据的时候,简单数据类型、简单数据类型的数组和字符串类型已经在使用kryo序列化。
-
DataSet和DataFrame默认使用kryo序列化。
-
keyo序列化也需要继承Serializable接口
弊端:支持的类型比较少
从2.0开始,Spark内部已经在使用kryo序列化,当RDD在Shuffle数据的时候,简单数据类型、简单数据类型的数组和字符串类型已经在使用kryo序列化。
DataSet和DataFrame默认使用kryo序列化。
keyo序列化也需要继承Serializable接口