Spark-RDD-04 checkpoint容错机制

最新推荐文章于 2020-06-02 13:45:17 发布

大鱼-瓶邪

最新推荐文章于 2020-06-02 13:45:17 发布

阅读量525

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25948717/article/details/83688275

版权

Spark 专栏收录该内容

32 篇文章 1 订阅

订阅专栏

我们了解到合理地将RDD持久化/缓存，不仅直接避免了RDD的重复计算导致的资原浪费和占用，还提升了RDD的容错性，

而且间接提升了分析任务的完成效率，那么为什么又会需要基于checkpoint的容错机制，在什么情况下需要设置checkpoint呢?

对RDD进行ceckpoin操作，会将RDD直接存储到磁盘上，而不是内存，从而实现真正的数据持久化。

checkpoint实际上对RDD lineage (RDD依赖关系图谱)的辅助和重新切割修正，当RDD依赖关系过于冗长和复杂时，

即依赖关系已达数十代，多个不同的分析任务同时依赖该RDD lineage多个中间RDD时，并且内存难以同时满足缓存多个相关

中间RDD时，可以考虑根据多个不同分析任务依赖的中间RDD的不同，使用checkpoint将该RDD lineage 切分成多个

子RDD lineage,这样每一个子RDD lineage都会从各自checkpoint开始算起，从而实现了相互独立，大大减少了由于过于冗长

的RDD lineage造成的高昂容错成本以及内存资源不足问题。

RDD设置检查点(checkpoint)，checkpoint 函数将会创建一个二进制的文件，并存储到checkpoint目录中（checkpoint 保存的

目录是在HDFS目录中，天然地保证了存储的可靠性)，该目录是用SparkContext.setCheckpoinDir()设置的。在checkpoint的

过程中，该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上核执行，必须执行Action

操作才能触发。

源码剖析：

(1)当使用了checkpoint后，数据被保存到HDFS，此RDD的依赖关系也会天掉，因为数据已经持久化到硬盘，不需要重新计算，会丢弃掉。

(2)强烈推荐先将数据持久化到内存中(cache 操作)，否则直接使用checkpoint 会开启一个计算，浪费资源。为哈要这样呢?因为checkpoint会触发个Job,如果执行checkpoint的rdd是由其他rdd经过许多计算转换过来的，如果你没有持久化这个rdd,那么又要从头开始计算该rdd,也就是做了重复的计算工作了，所以建议先persist rdd然后再checkpoint.

(3)对涉及大量达代计算的重要阶段性结果设置检查点。checkpoint 会丢弃该rdd的以前的依赖关系，使该rdd成为顶层父rdd，这样在失败的时候恢复只需要恢复该rdd,而不需要重新计算该rdd了，这在达代计算中是很有用的，假设你在达代1000次的计算中在第999次失败了，然后你没有checkpoint,你只能重新开始恢复了，如果恰好你在第998次选代的时候做了一个checkpoint,那么你只需要恢复第998次产生的rld,然后再执行2次迭化完成总共1000的迭代，这样效率就很高，比较适用于选代计算非常复杂的情况。也就是说在恢复计算代价非常高的情况下，适当进行checkpoint会有很大的好处。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark-RDD-04 checkpoint容错机制

我们了解到合理地将RDD持久化/缓存，不仅直接避免了RDD的重复计算导致的资原浪费和占用，还提升了RDD的容错性，而且间接提升了分析任务的完成效率，那么为什么又会需要基于checkpoint的容错机制，在什么情况下需要设置checkpoint呢?对RDD进行ceckpoin操作，会将RDD直接存储到磁盘上，而不是内存，从而实现真正的数据持久化。checkpoint实际上对RDD lin...
复制链接

扫一扫

专栏目录

大鱼-瓶邪 CSDN认证博客专家 CSDN认证企业博客

码龄9年

174: 原创

17万+: 周排名

106万+: 总排名

104万+: 访问

: 等级

7368: 积分

465: 粉丝

639: 获赞

200: 评论

3060: 收藏

私信

关注

热门文章

分类专栏

Hadoop 58篇
数学 2篇
算法 7篇
Python 30篇
Java 32篇
Linux 24篇
机器学习 15篇
网络技术 18篇
区块链
NIMROD 8篇
数据库 7篇
科研文献
Spark 32篇
Zookeeper 4篇
HIve 6篇
操作系统 3篇
数理统计 10篇
hbase 5篇
Scala 17篇
Redis 7篇
LeetCode 2篇
Yexin

最新评论

张量的通俗理解
m0_64598000: 到几何那一块就没看懂了，不过感觉很屌。
贝叶斯分类器(Python实现+详细完整源码和原理)
m0_62701054: 代码可以运行，讲解很清楚，感谢大佬！
贝叶斯分类器(Python实现+详细完整源码和原理)
Heisenbarge: 求源代码：936765868@qq.com
超级详细的协同过滤推荐系统+完整Python实现及结果
songfall: 在质疑别人看清之前可否先确认自己看清楚了呢？其一，41行注释写着：“注意：distance越大代表两者越相似”；其二，44行代码取得是distance倒数，才有“返回值越小，相似度越大”。我当时是把代码敲了一遍，然后想到上面的问题。请问你觉得我哪里没看清楚呢？
贝叶斯分类器(Python实现+详细完整源码和原理)
lalalaaiyo: 可以发下源码嘛，2167925018@qq.com，谢谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。