RDD Checkpoint

最新推荐文章于 2022-08-18 16:04:55 发布

飞Link

最新推荐文章于 2022-08-18 16:04:55 发布

阅读量248

点赞数

分类专栏：大数据文章标签：大数据数据仓库

本文链接：https://blog.csdn.net/feizuiku0116/article/details/121449102

版权

大数据专栏收录该内容

201 篇文章 11 订阅

订阅专栏

一、RDD Checkpoint介绍

RDD数据可以持久化，但是持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等
Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用
在Spark Core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复

二、RDD Checkpoint使用方法

java源代码

// 设置检查点目录，将RDD数据保存到那个目录
sc.setCheckpointDir("datas/spark/ckpt/")
// 读取文件数据
val datasRDD = sc.textFile("datas/wordcount/wordcount.data")
// 调用checkpoint函数，将RDD进行备份，需要RDD中Action函数触发
datasRDD.checkpoint()
datasRDD.count()
// 再次执行count函数，此时从checkpoint读取数据
datasRDD.count()

Python使用方法

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    print("PySpark checkpoint Program")
    # 1.创建应用程序入口SparkContext实例对象
    conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
    sc = SparkContext.getOrCreate(conf)
    # 2.RDD的checkpoint
    sc.setCheckpointDir("file:///export/pyfolder1;pyspark-chapter02_3.8/data/checkpoint1")
    # 3.调用集合RDD中函数处理分析数据
    fileRDD = sc.textFile("file:///export/pyfolder1/pyspark-chapter02_3.8/data/word.txt")
    # 4.调用checkpoint函数，将RDD进行备份，需要RDD中Action函数触发
    fileRDD.checkpoint()
    fileRDD.count()
    # 5.再次执行count函数，此时从checkpoint读取数据
    fileRDD.count()
    # 关闭SparkContext
    print("停止PySpark SparkSession对象")
    sc.stop()

飞Link

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD Checkpoint

一、RDD Checkpoint介绍RDD数据可以持久化，但是持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用在Spark Core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将
复制链接

扫一扫