spark优化----序列化持久化

简介:
    除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能,因为很有可能,RDD的数据是持久化到内存,或者磁盘中的,那么此时如果内存大小不是特别充足,完全可以使用序列化的持久化级别,
    如下:
        1.MEMORY_ONLY_SER
        2.MEMORY_AND_DISK_SER
       使用RDD.persist(StorageLevel.MEMORY_ONLY_SER)这样的语法即可。
    好处:
       1.将数据序列化之后,再持久化可以大大减小对内存的消耗。
       2.数据量小了之后,如果要写入磁盘,那么磁盘io性能消耗也比较小。
    缺点:
       对RDD持久化序列化后,RDD的每个partition的数据,都是序列化为一个巨大的字节数组,这样对于内存的消耗就小的多了。但是唯一的缺点就是,获取RDD数据时,需要对其进行反序列化,会增大其性能(cpu)开销。
       因此对于序列化的持久化级别,还可以进一步优化,也就是说使用Kryo序列化类库,这样可以获得更快的序列化速度,并且占用更小的内存空间。
    注意:
        如果RDD的元素(RDD<T>的泛型类型),是自定义类型的话,在Kryo中提前注册自定义类型。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值