RDD持久化和Checkpoint的区别

本文介绍了Spark中RDD的持久化(Persist和Cache)与检查点(Checkpoint)的差异。持久化数据可存储在本地磁盘和内存,而检查点支持保存到HDFS等可靠存储。Cache和Persist在程序结束时可能丢失,而Checkpoint的数据在程序结束后仍保留。此外,Cache和Persist保持依赖链,便于错误时重新计算,而Checkpoint则会切断依赖链,提供更安全的保障。
摘要由CSDN通过智能技术生成

1. 存储位置

- Persist和Cache只能保存在本地的磁盘和内存汇总(或者堆外内存)
- Checkpoint可以保存数据到HDFS这类可靠的存储上

2. 生命周期

- Cache和Persist的RDD会在程序结束后会被清楚或者手动调//;/的RDD在程序结束后依然存在,不会被删除

3. Lineage(血统、依赖链、依赖关系)

- Persist和Cache,不会丢掉RDD件的依赖链/依赖关系,因为这种缓存是不可靠的,如果出现了一些错误(例如Executor宕机),需要通过回溯依赖链重新计算出来
- Checkpoint会斩断依赖链,因为Checkpoint会把结果保存在HDFS这类存储中,更加的安全可靠,一般不需要回溯依赖链;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值