学习一下 spark kryo

最新推荐文章于 2021-05-08 15:22:18 发布

i_like_cobol3

最新推荐文章于 2021-05-08 15:22:18 发布

阅读量171

点赞数

spark kryo 中需要的内容很多，如何坚持高效率的序列化遇到的各类数据对象，需要对应的技术处理。参考一篇内容。

Kryo序列化库主要参数介绍

先介绍几个相关的配置：

Property Name Default Meaning
spark.kryo.classesToRegister (none) 如果您使用Kryo序列化，请给出一个以逗号分隔的自定义类名称list列表，以向Kryo注册。有关更多细节，请参阅调优指南[tuning guide]。
spark.kryo.referenceTracking true 跟踪对同一个对象的引用情况，这对发现有循环引用或同一对象有多个副本的情况是很有用的。设置为false可以提高性能
spark.kryo.registrationRequired false 是否需要在Kryo登记注册？如果为true，则序列化一个未注册的类时会抛出异常
spark.kryo.registrator (none) 为Kryo设置这个类去注册你自定义的类。最后，如果你不注册需要序列化的自定义类型，Kryo也能工作，不过每一个对象实例的序列化结果都会包含一份完整的类名，这有点浪费空间
spark.kryo.unsafe false 是否使用基于不安全的Kryo序列化器。使用不安全的IO可以大大加快速度。
spark.kryoserializer.buffer.max 64m 允许使用序列化buffer的最大值
spark.kryoserializer.buffer 64k 每个Executor中的每个core对应着一个序列化buffer。如果你的对象很大，可能需要增大该配置项。其值不能超过spark.kryoserializer.buffer.max