Spark性能优化三之采用kryo序列化类库

最新推荐文章于 2021-03-20 14:10:48 发布

廉立伟--big data

最新推荐文章于 2021-03-20 14:10:48 发布

阅读量167

点赞数

本文链接：https://blog.csdn.net/weixin_37789219/article/details/82983460

版权

Spark自身默认会在一些地方对数据进行序列化，比如Shuffle。还有就是，如果我们的算子函数使用到了外部的数据，比如我们在外部定义了一个封装了应用所有配置的对象，自定义了一个MyConfiguration对象，里面包含了100m的数据。然后，在算子函数里面，使用到了这个外部的大对象，那么也需要让其可序列化。
Spark提供了两种序列化机制，默认使用第一种：
1、Java序列化机制：
只要你的类实现了Serializable接口，那么都是可以序列化的
但是问题是，Java序列化机制的性能并不高。序列化的速度相对较慢，而且序列化以后的数据，还是相对来说比较大，还是比较占用内存空间。因此，如果你的Spark应用程序对内存很敏感，那么默认的Java序列化机制并不是最好的选择
2、Kryo序列化机制：Spark也支持使用Kryo类库来进行序列化。Kryo序列化机制比Java序列化机制更快，而且序列化后的数据占用的空间更小，通常比Java序列化的数据占用的空间要小10倍。
如果要使用Kryo序列化机制，使用new SparkConf().set(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)即可，即将Spark的序列化器设置为KryoSerializer。这样，Spark在内部的一些操作，比如Shuffle，进行序列化时，就会使用Kryo类库进行高性能、快速、更低内存占用量的序列化了。使用Kryo时，它要求是需要序列化的类，是要预先进行注册的，以获得最佳性能——如果不注册的话，那么Kryo必须时刻保存类型的全限定名，反而占用不少内存。
如果要注册自定义的类型，那么就使用如下的代码，即可：
Scala版本：
val conf = new SparkConf().setMaster(…).setAppName(…)
conf.registerKryoClasses(Array(classOf[Counter] ))
val sc = new SparkContext(conf)
Java版本：
SparkConf conf = new SparkConf().setMaster(…).setAppName(…)
conf.registerKryoClasses(Counter.class)
JavaSparkContext sc = new JavaSparkContext(conf)
如果注册的要序列化的自定义的类型，本身特别大，比如包含了超过100个field。那么就会导致要序列化的对象过大。此时就需要对Kryo本身进行优化。因为Kryo内部的缓存可能不够存放那么大的class对象。此时就需要调用SparkConf.set()方法，设置spark.kryoserializer.buffer.mb参数的值，将其调大。
默认情况下它的值是2，就是说最大能缓存2M的对象，然后进行序列化。可以在必要时将其调大。比如设置为10。

廉立伟--big data

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark性能优化三之采用kryo序列化类库

Spark自身默认会在一些地方对数据进行序列化，比如Shuffle。还有就是，如果我们的算子函数使用到了外部的数据，比如我们在外部定义了一个封装了应用所有配置的对象，自定义了一个MyConfiguration对象，里面包含了100m的数据。然后，在算子函数里面，使用到了这个外部的大对象，那么也需要让其可序列化。Spark提供了两种序列化机制，默认使用第一种：1、Java序列化机制：只要你的类...
复制链接

扫一扫