LearningSpark(4):Spark持久化操作

本文介绍了Spark的持久化操作,包括cache()和persist()方法,以及如何选择合适的持久化策略。持久化能够提高性能,避免重复计算,并具有自动容错机制。在内存不足时,可以使用序列化策略如MEMORY_ONLY_SER。非持久化操作unpersist()用于释放资源。
摘要由CSDN通过智能技术生成

持久化

Spark的一个重要特性,对RDD持久化操作时每个节点将RDD中的分区持久化到内存(或磁盘)上,之后的对该RDD反复操作过程中不需要重新计算该RDD,而是直接从内存中调用已缓存的分区即可。
当然,持久化适用于将要多次计算反复调用的RDD。不然的话会出现RDD重复计算,浪费资源降低性能的情况

巧妙使用RDD持久化,甚至在某些场景下,可以将spark应用程序的性能提升10倍。对于迭代式算法和快速交互式应用来说,RDD持久化,是非常重要的

其次,持久化机制还有自动容错机制,如果哪个缓存的分区丢失,就会自动从其源RDD通过系列transformation操作重新计算该丢失分区

Spark的一些shuffle操作也会自动对中间数据进行持久化,避免了在shuffle出错情况下,需要重复计算整个输入

持久化方法

cache()和persist()方法,二者都是Transformation算子。要使用持久化必须将缓存好的RDD付给一个变量,之后重复使用该变量即可,其次不能在cache、persist后立刻调用action算子,否则也不叫持久化

cache()等同于只缓存在内存中的persist(),源码如下

def cache(): this.type = persist()
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

另外persist持久化还有一个Storage Level的概念 【持久化策略】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值