cache、persist和checkpoint

本文详细介绍了Spark中的cache和persist机制,以及它们与checkpoint的区别。cache是默认存储级别为`MEMORY_ONLY`的快速缓存,而checkpoint则是用于断开血缘关系的持久化操作,会在job结束后保存到HDFS。在使用checkpoint前建议先cache以避免重复计算。persist则允许指定不同的存储级别,如`DISK_ONLY`,但数据不会长期保留。
摘要由CSDN通过智能技术生成

cache和persist

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def cache(): this.type = persist()

cache底层是调用persist,存储数据到到内存。

cache和checkpoint

cache机制是每计算出一个partition直接将其放到内存。checkpoint不是第一次计算出的结果进行存储,而是等到job结束后另起一个job去完成checkpoint。也就是,checkpoint前的计算会进行两次。因此,建议使用checkpoint前加上cache,这样就避免了重复计算两次。

核心:cache不会断开血缘关系,而checkpoint会断开血缘关系。

persist和checkpoint

pesist(StorageLevel.DISK_ONLY)与checkpoint也有区别。persist的数据是交给blockmanager管理的,等driver执行结束,整个blockManager 使用的local文件夹被删除,也就是数据会被删除。而不同的是,checkpoint的将数据持久化到hdfs,如果不手动删除会一直存在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值