Spark两种持久化及其区别

最新推荐文章于 2023-04-12 16:16:01 发布

hunter95671

最新推荐文章于 2023-04-12 16:16:01 发布

阅读量212

点赞数

分类专栏： spark scala 文章标签： spark scala big data

本文链接：https://blog.csdn.net/hunter95671/article/details/120474419

版权

spark 同时被 2 个专栏收录

11 篇文章 1 订阅

订阅专栏

scala

10 篇文章 0 订阅

订阅专栏

一、RDD Cache 缓存

RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存，默认情况下会把数据以缓存在 JVM 的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的 action 算子时，该 RDD 将会被缓存在计算节点的内存中，并供后面重用。

示例：

// 数据缓存
wordToOneRdd.cache()
// 可以更改存储级别
mapRdd.persist(StorageLevel.MEMORY_AND_DISK_2)

二、RDD CheckPoint 检查点

所谓的检查点其实就是通过将 RDD 中间结果写入磁盘
由于血缘依赖过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果检查点之后有节点出现问题，可以从检查点开始重做血缘，减少了开销。对 RDD 进行 checkpoint 操作并不会马上被执行，必须执行 Action 操作才能触发。

示例：

// 设置检查点路径
sc.setCheckpointDir("./checkpoint1")
// 数据检查点：针对 wordToOneRdd 做检查点计算
wordToOneRdd.checkpoint()

三、缓存和检查点区别

1）Cache 缓存只是将数据保存起来，不切断血缘依赖。Checkpoint 检查点切断血缘依赖。
2）Cache 缓存的数据通常存储在磁盘、内存等地方，可靠性低。Checkpoint 的数据通常存储在 HDFS 等容错、高可用的文件系统，可靠性高。
3）建议对 checkpoint()的 RDD 使用 Cache 缓存，这样 checkpoint 的 job 只需从 Cache 缓存中读取数据即可，否则需要再从头计算一次 RDD。