spark数据持久化

最新推荐文章于 2022-11-21 16:50:58 发布

jingweijia

最新推荐文章于 2022-11-21 16:50:58 发布

阅读量195

点赞数

分类专栏： sparkCore 数据持久化文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41779825/article/details/111662432

版权

sparkCore 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

数据持久化

1 篇文章 0 订阅

订阅专栏

persist、cache和checkPoint
使用场景
1、某个rdd被多次用到时。
2、某个rdd比较重要，或者处理流程多，血缘长时。
相同点
都将数据持久化提高效率。
不同点
1、cache底层用的是persist，但策略是MEMORY_ONLY，只将数据保存在内存中。好处是效率较高，缺点是不安全，如果数据量大，可能引起内存溢出。
2、persist可以选择持久化策略，使用较多的MEMORY_AND_DISK，持久化首选，如果内存不够，则写入磁盘。因为可能有磁盘io，所以效率较cache低，但更安全。
3、cache和persist持久化不会切断rdd的血缘关系，并且当任务结束后，持久化的数据会被清除。
4、checkPoint持久化会切断rdd血缘关系，将数据保存到磁盘中，类似重新生成了数据源。并且任务结束后数据不会被清除，可以被其他任务复用。通常checkPoint前，先将数据cache到内存中，提高效率。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark数据持久化

persist、cache和checkPoint使用场景1、某个rdd被多次用到时。2、某个rdd比较重要，或者处理流程多，血缘长时。相同点都将数据持久化提高效率。不同点1、cache底层用的是persist，但策略是memeory_only，只将数据保存在内存中。好处是效率较高，缺点是不安全，如果数据量大，可能引起内存溢出。2、persist可以选择持久化策略，使用较多的memeory_and_only，持久化首选，如果内存不够，则写入磁盘。因为可能有磁盘io，所以效率较cache低，但更
复制链接

扫一扫

专栏目录

jingweijia CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

180万+: 周排名

69万+: 总排名

1146: 访问

: 等级

24: 积分

0: 粉丝

1: 获赞

0: 评论

3: 收藏

私信

关注

热门文章

分类专栏

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。