Java的序列化能够序列化任何的类。但是比较重,序列化后对象的体积也比较大。
Spark出于性能的考虑,Spark2.0开始支持另外一种Kryo序列化机制。Kryo速度是Serializable的10倍。当RDD在Shuffle数据的时候,简单数据类型、数组和字符串类型已经在Spark内部使用Kryo来序列化。
代码实现:
public class Test02_kryo {
public static void main(String[] args) throws ClassNotFoundException {
//1. 创建spark配置
SparkConf conf = new SparkConf().setAppName("SparkCore").setMaster("local[*]")
.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
.registerKryoClasses(new Class[]{Class.forName("com.atguigu.sparkcore.e_serialize.bean.User")});
//2.创建SparkContext
JavaSparkContext sc = new JavaSparkContext(conf);
//3.编写代码
JavaRDD<String> javaRDD = sc.textFile("input/user.txt");
javaRDD
.map(line -> {
String[] split = line.split(" ");
return new User(
Integer.parseInt(split[0]),
split[1],
Integer.parseInt(split[2])
);
})
.collect().forEach(System.out::println);
//4.关闭资源
sc.stop();
}
}