spark优化----序列化持久化

最新推荐文章于 2023-03-11 19:36:58 发布

多哥仁慈的骆驼

最新推荐文章于 2023-03-11 19:36:58 发布

阅读量241

点赞数

分类专栏： spark

spark 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

简介：
    除了对多次使用的RDD进行持久化操作之外，还可以进一步优化其性能，因为很有可能，RDD的数据是持久化到内存，或者磁盘中的，那么此时如果内存大小不是特别充足，完全可以使用序列化的持久化级别，
    如下：
        1.MEMORY_ONLY_SER
        2.MEMORY_AND_DISK_SER
       使用RDD.persist(StorageLevel.MEMORY_ONLY_SER)这样的语法即可。
    好处：
       1.将数据序列化之后，再持久化可以大大减小对内存的消耗。
       2.数据量小了之后，如果要写入磁盘，那么磁盘io性能消耗也比较小。
    缺点：
       对RDD持久化序列化后，RDD的每个partition的数据，都是序列化为一个巨大的字节数组，这样对于内存的消耗就小的多了。但是唯一的缺点就是，获取RDD数据时，需要对其进行反序列化，会增大其性能（cpu）开销。
       因此对于序列化的持久化级别，还可以进一步优化，也就是说使用Kryo序列化类库，这样可以获得更快的序列化速度，并且占用更小的内存空间。
    注意：
        如果RDD的元素（RDD<T>的泛型类型），是自定义类型的话，在Kryo中提前注册自定义类型。