spark checkpoint

  1. checkpoint 前提条件

    迭代计算,要求保证数据安全
    对速度要求不高(跟cache到内存进行对比)
    将中间结果保存到hdfs

  2. 步骤:

    设置checkpoint目录(分布式文件系统的目录hdfs目录)sc.setCheckpointDir(“hdfs://s201:9000/ck2019”)
    经过复杂进行,得到中间结果
    将中间结果checkpoint到指定的hdfs目录
    后续的计算,就可以使用前面ck的数据了
    在这里插入图片描述 结果:做checkpoint目录
    在这里插入图片描述

  3. 注意事项

    动两个任务,一个计算一个保存
    防止中间结果丢失,保证迭代计算,防止从头读
    RDD标记checkpoint 不用记录前面的依赖关系,父RDD,因为已经保证不会丢失
    做了checkpoint就保证了数据的安全性,不会丢失。

  4. 最好持久化内存中防止相同的数据读两次:

    原因:
    因为checkpoint会起两个任务,一个计算结果,一个放到hdfs,如果你没放到
    内存中,就还会去读取,就是重新读,放到内存中不用读了直接放入hdfs就可以。
    以后就把内存中释放,然后以后读hdfs中就可以了 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值