为什么要做checkpoint

本文探讨了在Spark中进行checkpoint操作的原因,包括确保数据安全性、方便集群间共享及缓存优化。建议将checkpoint位置设为HDFS,并在shuffle操作后执行。实践步骤包括设置checkpoint目录、缓存数据及执行checkpoint。通过实例展示了启动Spark Shell、配置目录、读取文件、缓存、checkpoint及collect的流程。
摘要由CSDN通过智能技术生成

为什么要做checkpoint?

1.运行出的中间结果往往很重要,所以为了保证数据的安全性,要checkpoint

2.最好把checkpoint到hdfs中,这样便于该集群所有的节点访问到

3.在checkpoint之前最好先cache一下,这样先把数据放到缓存中。便于运行任务的调用,也便于在checkpoint的时候直接从缓存拿到数据

 

在什么时候做checkpoint?

在发生shuffle之后做checkpoint

 

checkpoint步骤:

1.建立checkpoint存储目录

       sc.setCheckpointDir("hdfs://Master4:9000/ck0001")

2.rdd1.cache()

3.rdd1.checkpoint()

 

事例测试:

1、启动spark-shell

/opt/spark/bin/spark-shell

2.设置checkpoint目录

sc.setCheckpointDir("hdfs://Master4:9000/ck0001")

3.读取wc目录下的文件,统计词频<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值