Spark：RDD checkpoint容错机制

最新推荐文章于 2024-01-23 00:35:13 发布

花和尚也有春天

最新推荐文章于 2024-01-23 00:35:13 发布

阅读量621

点赞数

分类专栏： sparkSQL spark rdd 文章标签： checkpoint cache persist rdd storage level

本文链接：https://blog.csdn.net/weixin_38750084/article/details/107010727

版权

RDD的checkpoint操作将其存储到磁盘，提供数据持久化，尤其在依赖关系复杂和冗长时，能减少容错成本和内存压力。推荐先cache再checkpoint，避免重复计算。在大规模迭代计算中，适时checkpoint能显著提升恢复效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

经过上一节的学习，我们了解到合理地将RDD持久化/缓存，不仅直接避免了RDD的重复计算导致的资源浪费和占用还提升了RDD的容错性，而且间接提升了分析任务的完成效率，那么为什么又会需要基于checkpoint的容错机制，在什么情况下需要设置checkpoint呢？

对RDD进行checkpoint操作，会将RDD直接存储到磁盘上，而不是内存，从而实现真正的数据持久化。

checkpoint 实际上对RDD lineage(RDD依赖关系图谱)的辅助和重新切割修正，当RDD依赖关系过于冗长和复杂时，即依赖关系已达数十代，多个不同的分析任务同时依赖该RDD lineage多个中间RDD时，并且内存难以同时满足缓存多个相关中间RDD时，可以考虑根据多个不同分析任务依赖的中间RDD的不同，使用checkpoint将该RDD lineage 切分成多个子RDD lineage ,这样每一个子 RDD lineage 都会从各自checkpoint 开始算起，从而实现了相互独立，大大减少了由于过于冗长的RDD lineage 造成的高昂容错成本以及内存资源不足问题。

以下示例为RDD设置检查点(checkpoint)。checkpoint 函数将会创建一个二进制的文件，并存储到checkpoint目录中(checkpoint保存的目录是在HDFS目录中，天然地保证了存储的可靠性)，该目录是用SparkContext.setCheckpointDir() 设置的。在checkpoint的过程中，该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上被执行

最低0.47元/天解锁文章