RDD Checkpoint

一、RDD Checkpoint介绍

  • RDD数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等
  • Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用
  • 在Spark Core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复

二、RDD Checkpoint使用方法

  • java源代码

    // 设置检查点目录,将RDD数据保存到那个目录
    sc.setCheckpointDir("datas/spark/ckpt/")
    // 读取文件数据
    val datasRDD = sc.textFile("datas/wordcount/wordcount.data")
    // 调用checkpoint函数,将RDD进行备份,需要RDD中Action函数触发
    datasRDD.checkpoint()
    datasRDD.count()
    // 再次执行count函数,此时从checkpoint读取数据
    datasRDD.count()
    
  • Python使用方法

    from pyspark import SparkConf, SparkContext
    
    if __name__ == '__main__':
        print("PySpark checkpoint Program")
        # 1.创建应用程序入口SparkContext实例对象
        conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
        sc = SparkContext.getOrCreate(conf)
        # 2.RDD的checkpoint
        sc.setCheckpointDir("file:///export/pyfolder1;pyspark-chapter02_3.8/data/checkpoint1")
        # 3.调用集合RDD中函数处理分析数据
        fileRDD = sc.textFile("file:///export/pyfolder1/pyspark-chapter02_3.8/data/word.txt")
        # 4.调用checkpoint函数,将RDD进行备份,需要RDD中Action函数触发
        fileRDD.checkpoint()
        fileRDD.count()
        # 5.再次执行count函数,此时从checkpoint读取数据
        fileRDD.count()
        # 关闭SparkContext
        print("停止PySpark SparkSession对象")
        sc.stop()
    

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值