Spark spark持久化(persisitent),什么情况下需要持久化

Spark持久化

StorageLevel这个类中,我们能看到Spark是如何持久化的
在这里插入图片描述
在这里插入图片描述
def persist(newLevel: StorageLevel)
def unpersist(blocking: Boolean = true)

在StorageLevel中定义的变量分别为

class StorageLevel private(
    private var _useDisk: Boolean,  //磁盘
    
    private var _useMemory: Boolean, //内存
    
	//JVM内存中tachyon(基于内存的分布式文件系统)
    private var _useOffHeap: Boolean,  
    
    private var _deserialized: Boolean, //反序列化
    
    private var _replication: Int = 1)  //副本个数
 
  extends Externalizable
什么情况下,RDD数据需要进行持久化呢???

场景一:某个RDD数据,被多次使用
  重复RDD
场景二:某个RDD数据来自不易,使用超过1次
  经过复杂的处理得到RDD

通常选择的策略
  MEMORY_ONLY_2 -如果内存足够
  MEMORY_AND_DISK_SER_2 -如果内存不够,先内存后磁盘,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值