Spark—RDD持久化

Jerry Hong

已于 2022-07-26 21:39:01 修改

阅读量331

点赞数

分类专栏： Spark 文章标签： spark scala java

于 2022-06-28 17:20:41 首次发布

本文链接：https://blog.csdn.net/weixin_42570840/article/details/125492307

版权

本文深入探讨Spark核心中的RDD持久化，包括RDD的Cache缓存机制，解释了如何默认在内存中存储数据，以及在行动算子触发时进行缓存。接着讨论了存储级别和缓存的容错性，强调了Shuffle操作中间数据的持久化重要性。RDD CheckPoint检查点作为另一种策略，通过将数据写入磁盘来减少血缘依赖，提高容错效率。最后，对比了Cache与CheckPoint的区别，强调Cache的临时性和CheckPoint的可靠性，以及在使用checkpoint()时配合Cache的策略。

摘要由CSDN通过智能技术生成

文章目录

【Spark Core篇】Spark持久化

【Spark Core篇】Spark持久化

1、 RDD Cache 缓存

RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存，默认情况下会把数据以缓存。在 JVM 的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的 action 算子时，该 RDD 将会被缓存在计算节点的内存中，并供后面重用。

// cache 操作会增加血缘关系，不改变原有的血缘关系
println(wordToOneRdd.toDebugString)
// 数据缓存。
wordToOneRdd.cache()
// 可以更改存储级别
//mapRdd.persist(StorageLevel.MEMORY_AND_DISK_2)