Spark性能调优之Kryo序列化

本文介绍了Kryo序列化在Spark中的应用,包括持久化RDD、Broadcast变量和Shuffle阶段的优势,对比了Java序列化的优缺点,并详细说明了如何设置和注册Kryo序列化机制以提升性能。
摘要由CSDN通过智能技术生成
什么是Kryo序列化?

Kryo序列化是Saprk支持的一种序列化机制,用来序列化类。在Spark作业中,需要你手动设置。

Kryo序列化机制应用常场景:

1.持久化RDD时进行序列化(比如:内存持久化 + 序列化。 详见笔者文章spark性能调优之RDD持久化) 每个executor分配了多个task,每个task对应有个partition,在将每个RDD partition序列化成一个大的字节数组的时候,就可以使用kyro进一步优化序列化的速率和性能。
2.算子函数中使用到外部变量(详见笔者文章spark性能调优之Broadcast广播大变量)。
3.Shuffle的时候也会用到Kryo序列化 。在进行stage之间的task的shuffle操作时,上一个stage生成的file文件,会通过网络传输拉取文件,此时,这些file文件既然要通过网络传输,也必然是要序列化的,尽可以使用kyro优化序列化。

 

java序列化机制优缺点:

默认情况,spark内部使用的是java序列化机制 – ObjectInStream/ObjectOutStream,对象输入/输出流机制来进行序列化。
java序列化机制的好处:处理起来很方便,不需要人为做什么,只要你在算子里使用的变量实现serializable接口即可。
java序列化机制的缺点:这种序列化的速度慢;序列化后的数据占用内存空间还是很大。

 

Kryo序列化机制优缺点:

Sp

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值