RDD缓存策略

最新推荐文章于 2024-03-24 00:16:26 发布

weixin_33851177

最新推荐文章于 2024-03-24 00:16:26 发布

阅读量137

点赞数

文章标签：大数据

Spark支持将数据集放置在集群的缓存中，以便于数据重用。

Spark缓存策略对应的类：

class StorageLevel private(
　　private var useDisk_ : Boolean,
　　private var useMemory_ : Boolean,
　　private var useOffHeap_ : Boolean,
　　private var deserialized_ : Boolean,
　　private var replication_ : Int = 1)
}

object StorageLevel {
　　val NONE = new StorageLevel(false, false, false, false)
　　val DISK_ONLY = new StorageLevel(true, false, false, false)
　　val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
　　val MEMORY_ONLY = new StorageLevel(false, true, false, true)
　　val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
　　val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
　　val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
　　val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
　　val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
　　val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
　　val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
　　val OFF_HEAP = new StorageLevel(false, false, true, false)
}

StorageLevel关键属性
useDisk_	是否使用磁盘
useMemory_	是否使用内存
deserialized_	是否进行反序列化（即原生方式，不序列化）
replication_	备份数目

序列化后的对象存放在内存中，占用的内存少，但是用时需要反序列化，会消耗CPU；

个人推荐：如果内存使用紧张但是CPU够用时建议考虑使用序列化后缓存；或者是选择性能更好的序列化工具。

可选用的存储级别有如下：

存储级别	描述
MEMORY_ONLY	将RDD 作为反序列化的的对象存储JVM 中。如果RDD不能被内存装下，一些分区将不会被缓存，并且在需要的时候被重新计算。这是是默认的级别
MEMORY_AND_DISK	将RDD 作为反序列化的的对象存储在JVM 中。如果RDD不能被与内存装下，超出的分区将被保存在硬盘上，并且在需要时被读取
MEMORY_ONLY_SER	将RDD 作为序列化的的对象进行存储（每一分区占用一个字节数组）。通常来说，这比将对象反序列化的空间利用率更高，尤其当使用fast serializer,但在读取时会比较占用CPU
MEMORY_AND_DISK_SER	与MEMORY_ONLY_SER 相似，但是把超出内存的分区将存储在硬盘上而不是在每次需要的时候重新计算
DISK_ONLY	只将RDD 分区存储在硬盘上
DISK_ONLY_2等带2的	与上述的存储级别一样，但是将每一个分区都复制到两个集群结点上