【spark】RDD容错机制Checkpoint

最新推荐文章于 2024-07-06 09:25:15 发布

依旧ฅ=ฅ

最新推荐文章于 2024-07-06 09:25:15 发布

阅读量3.8k

点赞数

分类专栏： spark 文章标签： RDD容错机制

本文链接：https://blog.csdn.net/qq_44065303/article/details/105519954

版权

spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

持久化的局限

持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。

问题解决

Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用

使用步骤

1.SparkContext.setCheckpointDir("目录") //HDFS的目录

2.RDD.checkpoint()

代码演示

sc.setCheckpointDir("hdfs://node01:8020/ckpdir")
//设置检查点目录,会立即在HDFS上创建一个空目录
val rdd1 = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
rdd1.checkpoint() //对rdd1进行检查点保存
rdd1.collect //Action操作才会真正执行checkpoint
//后续如果要使用到rdd1可以从checkpoint中读取

查看结果:

hdfs dfs -ls /

或者通过web界面查看

http://192.168.1.101:50070/dfshealth.html#tab-overview

总结

开发中如何保证数据的安全性性及读取效率

可以对频繁使用且重要的数据，先做缓存/持久化，再做checkpint操作