spark中的序列化问题

在spark中4个地方用到了序列化:

1、算子中用到了driver定义的外部变量的时候

2、将自定义的类型作为RDD的泛型类型,所有的自定义类型对象都会进行序列化

3、使用可序列化的持久化策略的时候。比如:MEMORY_ONLY_SER,spark会将RDD中每个分区都序列化成一个大的字节数组。

4、shuffle的时候

任何分布式系统中,序列化都扮演着一个很重要的角色。如果使用的序列化技术操作很慢,或者序列化之后数据量还是很大的话,那么会严重影响分布式系统的性能。

    spark使用的默认序列化机制是java提供的序列化机制,即基于ObjectInputStream和 ObjectOutputStream的序列化机制。

    这种序列化机制使用起来便捷,只要你的类实现了Serializable接口,那么都是可以序列化的。而且Java序列化机制是提供了自定义序列化支持的,只要你实现Externalizable接口即可实现自己的更高性能的序列化算法。但是这种方式的性能并不是很高,序列化的速度也相对较慢,并且序列化之后数据量也是比较大,占用较多的内存空间。

    除了默认使用的序列化机制以外,spark还提供了另一种序列化机制,Kryo序列化机制

    这种序列化机制比java的序列化机制更快,并且序列化之后的数据占用空间更少,通常比java序列化小10倍。那么Kryo序列化机制为什么不是默认机制?原因是即使有些类实现了Seriralizable接口它也不一定能进行序列化,而且如果你想实现某些类的序列化,需要在spa

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值