Spark学习笔记(8)——RDD序列化

最新推荐文章于 2023-04-21 18:01:51 发布

程光CS

最新推荐文章于 2023-04-21 18:01:51 发布

阅读量162

点赞数

分类专栏： # Spark学习笔记

本文链接：https://blog.csdn.net/m0_56602092/article/details/119377161

版权

Spark学习笔记专栏收录该内容

15 篇文章 5 订阅

订阅专栏

Scala函数式编程中，闭包可能导致算子外数据在Executor端执行，需要检查对象序列化。Spark2.0引入Kryo优化序列化，减少字节数，提升性能。在使用Kryo时，仍需继承Serializable接口，即使Kryo序列化能处理不可序列化的transient数据。闭包检测在编译时自动执行，确保任务执行的正确性。

摘要由CSDN通过智能技术生成

从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测，编译时会自动执行闭包检测。Scala2.12 版本后闭包编译方式发生了改变

实现可序列化的两种方式
1.继承Serializable接口

class User extends Serializable {
	...

2.创建样例类,样例类在编译时，会自动混入序列化特质（实现可序列化接口）

case class User() {
	...

Kryo 序列化框架

参考地址: https://github.com/EsotericSoftware/kryo
Java 的序列化能够序列化任何的类，但是因此而导致比较重（字节多），序列化后，对象的提交也比较大，不适合大数据，Spark 出于性能的考虑，Spark2.0 开始支持另外一种 Kryo 序列化机制，可大大减少序列化产生的字节数，Kryo 速度是 Serializable 的 10 倍。当 RDD 在 Shuffle 数据的时候，简单数据类型、数组和字符串类型已经在 Spark 内部使用 Kryo 来序列化。