持久化
Spark的一个重要特性,对RDD持久化操作时每个节点将RDD中的分区持久化到内存(或磁盘)上,之后的对该RDD反复操作过程中不需要重新计算该RDD,而是直接从内存中调用已缓存的分区即可。
当然,持久化适用于将要多次计算反复调用的RDD。不然的话会出现RDD重复计算,浪费资源降低性能的情况
巧妙使用RDD持久化,甚至在某些场景下,可以将spark应用程序的性能提升10倍。对于迭代式算法和快速交互式应用来说,RDD持久化,是非常重要的
其次,持久化机制还有自动容错机制,如果哪个缓存的分区丢失,就会自动从其源RDD通过系列transformation操作重新计算该丢失分区
Spark的一些shuffle操作也会自动对中间数据进行持久化,避免了在shuffle出错情况下,需要重复计算整个输入
持久化方法
cache()和persist()方法,二者都是Transformation算子。要使用持久化必须将缓存好的RDD付给一个变量,之后重复使用该变量即可,其次不能在cache、persist后立刻调用action算子,否则也不叫持久化
cache()等同于只缓存在内存中的persist(),源码如下
def cache(): this.type = persist()
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)
另外persist持久化还有一个Storage Level的概念 【持久化策略】