SparkCore之RDD的Checkpoint详解

最新推荐文章于 2022-02-20 23:58:51 发布

LBJ_小松鼠

最新推荐文章于 2022-02-20 23:58:51 发布

阅读量293

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49834705/article/details/112724515

版权

简介:

RDD 数据可以持久化，但是持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的(内存意失)；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。
Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用。

RDD的查点机制:

1-什么是检查点机制
- 就是使用CheckPoint将数据保存在HDFS等非易失的介质中
2-检查点机制实现的目的是什么
- 就是为了解决RDD缓存在易失的介质中无法保证数据的安全性，这里通过Checkpoint检查点机制将数据保存在HDFS中，就可以借助HDFS的高容错和高可靠性实现检查点机制
3-如何使用检查点机制
- sc.checkPoint(“hdfs的路径”)
4-检查点机制和RDD的缓存有什么区别和联系？
5-注意:

Spark如何实现容错机制？
（1）首先Spark会查找内存中是否会有RDD进行cache或persist，如果没有继续
（2）继续查找Spark中是否设置CheckPoint检查点机制
（3）根据RDD的血缘或依赖关系重新计算

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。