RDD persist持久化机制和checkpoint检查点机制区别

Kazi_1024

于 2022-12-21 11:36:13 发布

阅读量594

点赞数

分类专栏： Spark 文章标签：缓存大数据 spark

本文链接：https://blog.csdn.net/weixin_42322454/article/details/128355281

版权

10 篇文章 0 订阅

订阅专栏

功能：对RDD（包含依赖关系）进行缓存，可以自己指定缓存的级别
场景：根据资源情况，将RDD缓存在不同的地方或者缓存多份。一般适用于离线场景
语法：persist(StorageLevel)
- StorageLevel：设置缓存级别
  - MEMORY_ONLY：缓存仅在内存
  - DISK_ONLY：缓存仅在磁盘
  - MEMORY_AND_DISK：优先缓存在内存，如果内存不足，再缓存到磁盘

举例说明：

rdd.persist(StorageLevel.MEMORY_AND_DISK) # 缓存在内存中，如果内存不足则存入磁盘

rdd.persist(StorageLevel.MEMORY_AND_DISK_2) # 缓存两份

cache和persist本质上都是persist缓存，cache调用的就是persist，但是不能指定缓存级别，persist允许指定缓存级别

persist(StorageLevel.MEMORY_ONLY)的简写，缓存仅在内存中

# 设置一个检查点目录
sc.setCheckpointDir("存储路径")

# 将RDD的数据持久化存储在HDFS
rs_rdd.checkpoint()

区别	持久化	检查点
存储位置	保存在本地的内存或磁盘	保存在可靠的存储系统（HDFS）中
生命周期	程序结束后会被清除或者调用unpersist方法清除	程序结束后依然存在，只能手动清除
依赖关系	保存的是RDD，会保留RDD的血脉关系	保存的是RDD的数据，不包含血脉关系