Spark cache、persist和checkpoint

最新推荐文章于 2021-11-11 20:55:25 发布

paccumtreal

最新推荐文章于 2021-11-11 20:55:25 发布

阅读量293

点赞数 1

分类专栏： Spark 文章标签： spark cache persist checkpoint

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/paccumtreal/article/details/80923660

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

先简单的说一下对spark core的一些理解：

spark核心是RDD，也就是弹性分布式数据集。一个RDD上有多个partition。

计算过程是一个有向无环图DAG。

DAG由一个个的stage组成。stage划分规则是遇到宽依赖就划分一个stage。宽依赖和shuffle有关，在lineage中，父RDD上partition数据分配到子RDD的partition上,一对一，可直接传递数据，不需要借助磁盘shuffle，这就是窄依赖。一个partition数据分配到多个partition上，需要借助磁盘存储数据在进行分配，这就是shuffle过程。所以说，stage的存在是spark持久化特性的辅助因素。

进入正题：

spark持久化，三种方式Cache、persist、checkpoint。

简单理解：

都是对RDD进行存储，实现持久化，提高容错率。

要深入理解就要解读源码。

cache调用persist，缓存级别为MEMORY_ONLY。

persist有12大缓存级别，可根据情况自行调用。（详情参考博文：https://blog.csdn.net/houmou/article/details/52491419）

checkpoint出现在cache和persist之后，cache和persist将RDD存储在内存或者磁盘中。断电导致内存数据消失，电脑问题导致磁盘损坏，

这样将造成stage内RDD需要从头到尾的transformation，效率非常低。checkpoint解决了这一难题。在重要的RDD处设置checkpoint，实际上就

是将该RDD存储到了高可用的分布式文件系统HDFS上。实现了数据持久化，提升了spark的容错性能。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark cache、persist和checkpoint

先简单的说一下对spark core的一些理解：spark核心是RDD，也就是弹性分布式数据集。一个RDD上有多个partition。计算过程是一个有向无环图DAG。DAG由一个个的stage组成。stage划分规则是遇到宽依赖就划分一个stage。宽依赖和shuffle有关，在lineage中，父RDD上partition数据分配到子RDD的partition上,一对一，可直接传递数据，不需要...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。