【面试题】简述spark中的cache() persist() checkpoint()之间的区别与联系

最新推荐文章于 2023-09-18 20:19:32 发布

皮哥四月红

最新推荐文章于 2023-09-18 20:19:32 发布

阅读量1.1k

点赞数 3

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_43230682/article/details/105334133

版权

Spark 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

首先，这三者都是做RDD持久化的。

其次，缓存机制里的cache和persist都是用于将一个RDD进行缓存，区别就是：cache()是persisit()的一种简化方式，cache()的底层就是调用的persist()的无参版本，同时就是调用persist(MEMORY_ONLY)将数据持久化到内存中。如果需要从内存中清楚缓存，那么可以使用unpersist()方法。

另外，cache 跟 persist不会截断血缘关系，checkPoint会截断血缘关系。

最后，应用场景分别是：

cache: 对于会被重复使用，但是数据量不是太大的RDD，可以将其cache（）到内存当中。cache 是每计算出一个要 cache 的 partition 就直接将其 cache 到内存中。缓存完之后，可以在任务监控界面storage里面看到缓存的数据。

checkpoint：对于computing chain 计算链过长或依赖其他 RDD 很多的 RDD，就需要进行checkpoint，将其放入到HDFS或者本地文件夹当中。需要注意的是，checkpoint 需要等到job完成了，再启动专门的job去完成checkpoint 操作，因此RDD是被计算了两次的。一般使用的时候配合rdd.cache()，这样第二次就不用重新计算RDD了，直接读取 cache 写磁盘。

注意：rdd.persist(StorageLevel.DISK_ONLY) 与 checkpoint 也有区别，persist一旦程序执行结束，所有的缓存无论在内存还是磁盘都会被删掉。而 checkpoint 将 RDD 持久化到 HDFS 或本地文件夹，如果不被手动 remove 掉，是一直存在的，也就是说可以被下一个 driver，program 使用，而 cached RDD 不能被其他 dirver program 使用。