一、RDD Checkpoint介绍
- RDD数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等
- Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用
- 在Spark Core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复
二、RDD Checkpoint使用方法
-
java源代码
// 设置检查点目录,将RDD数据保存到那个目录 sc.setCheckpointDir("datas/spark/ckpt/") // 读取文件数据 val datasRDD = sc.textFile("datas/wordcount/wordcount.data") // 调用checkpoint函数,将RDD进行备份,需要RDD中Action函数触发 datasRDD.checkpoint() datasRDD.count() // 再次执行count函数,此时从checkpoint读取数据 datasRDD.count()
-
Python使用方法
from pyspark import SparkConf, SparkContext if __name__ == '__main__': print("PySpark checkpoint Program") # 1.创建应用程序入口SparkContext实例对象 conf = SparkConf().setAppName("miniProject").setMaster("local[*]") sc = SparkContext.getOrCreate(conf) # 2.RDD的checkpoint sc.setCheckpointDir("file:///export/pyfolder1;pyspark-chapter02_3.8/data/checkpoint1") # 3.调用集合RDD中函数处理分析数据 fileRDD = sc.textFile("file:///export/pyfolder1/pyspark-chapter02_3.8/data/word.txt") # 4.调用checkpoint函数,将RDD进行备份,需要RDD中Action函数触发 fileRDD.checkpoint() fileRDD.count() # 5.再次执行count函数,此时从checkpoint读取数据 fileRDD.count() # 关闭SparkContext print("停止PySpark SparkSession对象") sc.stop()