Spark基础学习笔记21：RDD检查点与共享变量

最新推荐文章于 2024-02-03 15:20:01 发布

－UBabi

最新推荐文章于 2024-02-03 15:20:01 发布

阅读量639

点赞数

文章标签： spark 学习大数据

本文链接：https://blog.csdn.net/qq_67308063/article/details/124618278

版权

本文深入探讨Spark中的RDD检查点机制，包括其与RDD持久化的区别，以及如何通过案例演示检查点的使用。同时，文章介绍了Spark的共享变量，如广播变量和累加器，讨论它们在网络传输和内存开销中的优化作用。

摘要由CSDN通过智能技术生成

文章目录
零、本讲学习目标
一、RDD检查点
（一）RDD检查点机制
（二）与RDD持久化的区别
（三）RDD检查点案例演示
二、共享变量
（一）广播变量
1、默认情况下变量的传递
2、使用广播变量时变量的传递
（二）累加器
1、累加器功能
2、不使用累加器
3、使用累加器
零、本讲学习目标
理解RDD检查点机制的特点与用处
理解共享变量的类别、特点与使用
一、RDD检查点
（一）RDD检查点机制
RDD的检查点机制（Checkpoint）相当于对RDD数据进行快照，可以将经常使用的RDD快照到指定的文件系统中，最好是共享文件系统，例如HDFS。当机器发生故障导致内存或磁盘中的RDD数据丢失时，可以快速从快照中对指定的RDD进行恢复，而不需要根据RDD的依赖关系从头进行计算，大大提高了计算效率。
（二）与RDD持久化的区别
cache()或者persist()是将数据存储于机器本地的内存或磁盘，当机器发生故障时无法进行数据恢复，而检查点是将RDD数据存储于外部的共享文件系统（例如HDFS），共享文件系统的副本机制保证了数据的可靠性。
在Spark应用程序执行结束后，cache()或者persist()存储的数据将被清空，而检查点存储的数据不会受影响，将永久存在，除非手动将其移除。因此，检查点数据可以被下一个Spark应用程序使用，而cache()或者persist()数据只能被当前Spark应用程序使用。
（三）RDD检查点案例演示
在net.huawei.rdd包里创建CheckpointDemo对象
————————————————
版权声明：本文为CSDN博主「howard2005」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/howard2005/article/details/124096794

package net.huawei.rdd

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

最低0.47元/天解锁文章

－UBabi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark基础学习笔记21：RDD检查点与共享变量

文章目录零、本讲学习目标一、RDD检查点（一）RDD检查点机制（二）与RDD持久化的区别（三）RDD检查点案例演示二、共享变量（一）广播变量1、默认情况下变量的传递2、使用广播变量时变量的传递（二）累加器1、累加器功能2、不使用累加器3、使用累加器零、本讲学习目标理解RDD检查点机制的特点与用处理解共享变量的类别、特点与使用一、RDD检查点（一）RDD检查点机制RDD的检查点机制（Checkpoint）相当于对RDD数据进行快照，可以将经常使用的RDD快照到指定的文件系
复制链接

扫一扫