Spark性能调优之Kryo序列化

最新推荐文章于 2023-04-04 15:16:27 发布

博闻强识plus

最新推荐文章于 2023-04-04 15:16:27 发布

阅读量895

点赞数

分类专栏： Hadoop生态 spark 文章标签： kyro hdfs

本文链接：https://blog.csdn.net/lilei19921109/article/details/94116357

版权

本文介绍了Kryo序列化在Spark中的应用，包括持久化RDD、Broadcast变量和Shuffle阶段的优势，对比了Java序列化的优缺点，并详细说明了如何设置和注册Kryo序列化机制以提升性能。

摘要由CSDN通过智能技术生成

什么是Kryo序列化？

Kryo序列化是Saprk支持的一种序列化机制，用来序列化类。在Spark作业中，需要你手动设置。

Kryo序列化机制应用常场景：

1.持久化RDD时进行序列化（比如：内存持久化 + 序列化。详见笔者文章spark性能调优之RDD持久化）每个executor分配了多个task，每个task对应有个partition，在将每个RDD partition序列化成一个大的字节数组的时候，就可以使用kyro进一步优化序列化的速率和性能。
2.算子函数中使用到外部变量（详见笔者文章spark性能调优之Broadcast广播大变量）。
3.Shuffle的时候也会用到Kryo序列化。在进行stage之间的task的shuffle操作时，上一个stage生成的file文件，会通过网络传输拉取文件，此时，这些file文件既然要通过网络传输，也必然是要序列化的，尽可以使用kyro优化序列化。

java序列化机制优缺点：

默认情况，spark内部使用的是java序列化机制 – ObjectInStream/ObjectOutStream，对象输入/输出流机制来进行序列化。
java序列化机制的好处：处理起来很方便，不需要人为做什么，只要你在算子里使用的变量实现serializable接口即可。
java序列化机制的缺点：这种序列化的速度慢；序列化后的数据占用内存空间还是很大。

Kryo序列化机制优缺点：

最低0.47元/天解锁文章

博闻强识plus

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark性能调优之Kryo序列化

什么是Kryo序列化？Kryo序列化是Saprk支持的一种序列化机制，用来序列化类。在Spark作业中，需要你手动设置。Kryo序列化机制应用常场景：1.持久化RDD时进行序列化（比如：内存持久化 + 序列化。详见笔者文章spark性能调优之RDD持久化）每个executor分配了多个task，每个task对应有个partition，在将每个RDD partition序列化成一个大的字节...
复制链接

扫一扫

专栏目录