spark缓存机制cache,persist和checkpoint

最新推荐文章于 2023-06-13 17:00:18 发布

RayfunC

最新推荐文章于 2023-06-13 17:00:18 发布

阅读量1.1k

点赞数 3

分类专栏：大数据框架 Spark 文章标签： spark spark缓存 spark cache spark persist spark chekpoint

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a308601801/article/details/112109125

版权

大数据框架同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

避免spark每次都重算RDD以及它的所有依赖，cache()、persist()、 checkpoint()。

1、cache()：会被重复使用，但是不能太大的RDD，将其cache（）到内存当中，catch（）属于 memory only 。cache 是每计算出一个要 cache 的 partition 就直接将其 cache 到内存中。缓存完之后，可以在任务监控界面storage里面看到缓存的数据。

2、persist()：可以设置缓存级别，如只在内存，只在磁盘，内存磁盘都用。

MEMORY_ONLY

MEMORY_AND_DISK

MEMORY_ONLY_SER

MEMORY_AND_DISK_SER

DISK_ONLY

MEMORY_ONLY_2, MEMORY_AND_DISK_2, 等等

持久化级别详解：http://bcxw.net/article/425.html

3、checkpoint（）：computing chain 计算链过长或依赖其他 RDD 很多的 RDD，就需要进行checkpoint，将其放入到磁盘当中。

　　checkpoint 需要等到job完成了，在启动专门的job去完成checkpoint 操作，因此RDD是被计算了两次的。一般使用的时候配合rdd.cache()，这样第二次就不用重新计算RDD了，直接读取 cache 写磁盘。

　　rdd.persist(StorageLevel.DISK_ONLY) 与 checkpoint 也有区别，persist一旦程序执行结束，所有的缓存无论在内存还是磁盘都会被删掉。而而 checkpoint 将 RDD 持久化到 HDFS 或本地文件夹，如果不被手动 remove 掉，是一直存在的，也就是说可以被下一个 driver，program 使用，而 cached RDD 不能被其他 dirver program 使用。

cache 跟 persist 不会截断血缘关系，checkPoint 会截断血缘关系。

补充：缓存太多的时候，spark会自动使用 LRU 缓存策略（最近最少使用缓存策略），将最老的分区从内存中移除。若下次使用被移除的分区时，只能重算。

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
spark缓存机制cache,persist和checkpoint

避免spark每次都重算RDD以及它的所有依赖，cache()、persist()、 checkpoint()。1、cache()：会被重复使用，但是不能太大的RDD，将其cache（）到内存当中，catch（）属于 memory only 。cache 是每计算出一个要 cache 的 partition 就直接将其 cache 到内存中。缓存完之后，可以在任务监控界面storage里面看到缓存的数据。2、persist()：可以设置缓存级别，如只在内存，只在磁盘，内存磁盘都用。MEMORY_
复制链接

扫一扫

专栏目录

RayfunC CSDN认证博客专家 CSDN认证企业博客

码龄9年

85: 原创

5万+: 周排名

81万+: 总排名

29万+: 访问

: 等级

3323: 积分

62: 粉丝

156: 获赞

42: 评论

658: 收藏

私信

关注

热门文章

分类专栏

MySQL 2篇
效率神器 6篇
大数据框架 25篇
Linux 9篇
Flume 6篇
Hive 15篇
Impala 1篇
Spark 11篇
Java 8篇
算法 4篇
Kafka 2篇
HBase 5篇
Sqoop 1篇
AI 2篇
Windows 1篇
Scala 9篇
Kafka 3篇
土亢 4篇
Machine Leaning

最新评论

Kafka 数据丢失和数据重复的原因和解决办法
Govenny: 这是解决broker数据一致性的问题不是重复
spark缓存机制cache,persist和checkpoint
陈淀薄发: 这个说的还是比较清楚的。比如如果persist的storagelevel是disk_only和checkpoint有区别吗？ 1. checkpoint在文件删除之后，不会删除，这个是体现容错的一个方面
mysql 8.0高版本 sql_mode=only_full_group_by 解决方法
javacoldeyes: 帮我解决了docker中版本问题。非常感谢
Hive 贪婪匹配和非贪婪匹配 .* 和 .*?
潜水的鱼丿: 错的，你都没验证
mysql 8.0高版本 sql_mode=only_full_group_by 解决方法
qq_36383242: 8.0.27版本，在my.ini中添加sql_mode后无法启动服务，求解

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。