Spark中的RDD Checkpoint 检查点机制（附案例）

奇迹虎虎

已于 2022-02-21 17:48:54 修改

阅读量568

点赞数 2

分类专栏： # Spark 文章标签： hdfs 缓存 spark big data 大数据

于 2022-02-20 23:58:51 首次发布

本文链接：https://blog.csdn.net/qq_17685725/article/details/123038224

版权

Spark 专栏收录该内容

19 篇文章 4 订阅

订阅专栏

RDD数据可以持久化缓存，比如 cache()、persist()，虽然快速但也是最不可靠的，比如内存损坏、磁盘损坏。

Checkpoint 的持久化是存储在HDFS上的，因为具备高可用，所以非常可靠，但会切断执行 checkpoint RDD的依赖关系。Checkpoint 常用于RDD数据备份，以便从HDFS中恢。

checkpoint 的使用步骤：

# 第一步：
sc.setCheckpointDir('hdfs:///ckp/8-checkpoint')     # 指定HDFS的目录
# 第二步：
split_rdd.checkpoint()    # 后续频繁使用到的RDD、或很重要的RDD

RDD Checkpoint 检查点机制案例

数据准备（apache.log）：

86.149.9.216 10001 17/05/2015:10:05:30 GET /presentations/logstash-monitorama-2013/images/github-contributions.png
83.149.9.216 10002 17/05/2015:10:06:53 GET /presentations/logstash-monitorama-2013/css/print/paper.css
83.149.9.216 10002 17/05/2015:10:06:53 GET /presentations/logstash-monitorama-2013/css/print/paper.css
83.149.9.216 10002 17/05/2015:10:06:53 GET /presentations/logstash-monitorama-2013/css/print/paper.css
83.149.9.216 10002 17/05/2015:10:06:53 GET /presentations/logstash-monitorama-2013/css/print/paper.css
83.149.9.216 10002 17/05/2015:10:06:53 GET /presentations/logstash-monitorama-2013/css/print/paper.css
83.149.9.216 10002 17/05/2015:10:06:53 GET /presentations/logstash-monitorama-2013/css/print/paper.css
10.0.0.1 10003 17/05/2015:10:06:53 POST /presentations/logstash-monitorama-2013/css/print/paper.css
10.0.0.1 10003 17/05/2015:10:07:53 POST /presentations/logstash-monitorama-2013/css/print/paper.css
10.0.0.1 10003 17/05/2015:10:08:53 POST /presentations/logstash-monitorama-2013/css/print/paper.css
10.0.0.1 10003 17/05/2015:10:09:53 POST /presentations/logstash-monitorama-2013/css/print/paper.css
10.0.0.1 10003 17/05/2015:10:10:53 POST /presentations/logstash-monitorama-2013/css/print/paper.css
10.0.0.1 10003 17/05/2015:10:16:53 POST /presentations/logstash-monitorama-2013/css/print/paper.css
10.0.0.1 10003 17/05/2015:10:26:53 POST /presentations/logstash-monitorama-2013/css/print/paper.css

Python代码

import time

from pyspark import SparkConf, SparkContext, StorageLevel
import os
import re
os.environ['SPARK_HOME'] = '/export/server/spark'
if __name__ == '__main__':
    #1-创建上下文对象
    conf=SparkConf().setAppName('test').setMaster('local[*]')
    sc=SparkContext(conf=conf)
    #设置checkpoint检查点HDFS目录
    sc.setCheckpointDir('hdfs:///ckp/8-checkpoint')
    #2-加载数据源，形成RDD
    input_rdd=sc.textFile('file:///export/pyworkspace/pyspark_sz27/pyspark_core/data/apache.log')

    #3-转换成只有IP的RDD,\\s+表示广义的空白字符，比如空格，换行，tab键, \t\n, 多个连续空白字符也算一个空白字符。
    split_rdd =input_rdd.map(lambda x:re.split('\\s+',x)[0])

    #对复用的RDD的逻辑上的数据，固化到检查点
    split_rdd.checkpoint()

    #4-计算并打印pv
    print('pv=',split_rdd.count())
    #5-计算并打印uv
    print('uv=',split_rdd.distinct().count())

    time.sleep(600)
    #6-关闭退出
    sc.stop()

结果（checkpoint 操作切断了原RDD的依赖关系）

“checkpoint() 检查点” 和 “cache() / persist() 持久化缓存” 的区别

位置区别：persist 或 cache 会将RDD的数据保存在内存、磁盘、堆外内存中，但是 checkpoint 机制将RDD数据保存在HDFS上。
生命周期：当 Application 执行完毕，或者调用 unpersist，那么 persist 或 cache 的数据会被自动清除。但是 checkpoint 目录的内容不会自动清除，需要手动清除。
血缘关系：persist 或 cache 会保留RDD的血缘关系，如果某个分区的数据丢失，那么可以借助血缘关系重新计算出来。但 checkpoint 会切断依赖链不保留依赖关系，因为即使一个分区的数据丢失损坏，也能直接从HDFS的另外2个副本恢复。

奇迹虎虎

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark中的RDD Checkpoint 检查点机制（附案例）

Checkpoint 的持久化是存储在HDFS上的，因为具备高可用，所以非常可靠，但会切断执行 checkpoint RDD的依赖关系。Checkpoint 常用于RDD数据备份，以便从HDFS中恢复。
复制链接

扫一扫