spark性能调优---Kryo序列化

最新推荐文章于 2023-08-01 15:26:46 发布

angel泪

最新推荐文章于 2023-08-01 15:26:46 发布

阅读量272

点赞数

分类专栏： spark性能调优文章标签： spark性能调优

本文链接：https://blog.csdn.net/u013164612/article/details/84657245

版权

spark性能调优专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.为啥要用Kryo序列化

Spark算子操作的时候如果用到外部数据的话，都会对外部数据进行序列化，Spark内部是使用Java的序列化机制，ObjectOutputStream / ObjectInputStream，对象输入输出流机制，来进行序列化这种默认序列化机制的好处在于，处理起来比较方便；也不需要我们手动去做什么事情，只是，你在算子里面使用的变量，必须是实现Serializable接口的，可序列化即可。但是缺点个人觉得默认的序列化机制的效率不高，序列化的速度比较慢；序列化以后的数据，占用的内存空间相对还是比较大。但是Spark支持使用Kryo序列化机制。Kryo序列化机制，比默认的Java序列化机制，速度要快，序列化后的数据要更小，大概是Java序列化机制的1/10。所以Kryo序列化优化以后，可以让网络传输的数据变少；在集群中耗费的内存资源大大减少。

2.Kryo序列化机制，一旦启用以后，会生效的几个地方

a、算子函数中使用到的外部变量，使用Kryo以后：优化网络传输的性能，可以优化集群中内存的占用和消耗

b、持久化RDD，优化内存的占用和消耗；持久化RDD占用的内存越少，task执行的时候，创建的对象，就不至于频繁的占满内存，频繁发生GC。

c、shuffle：可以优化网络传输的性能

3.如何使用Kryo序列化机制（摘自Spark官网）

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

为啥spark默认的序列化机制不改成Kryo序列化机制呢？难道就因为要去注册序列化的类的原因吗？