spark RDD的缓存和检查点不同使用场景和工作机制 -- （视频笔记）

最新推荐文章于 2024-08-06 21:32:10 发布

weixin_30612769

最新推荐文章于 2024-08-06 21:32:10 发布

阅读量124

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/isenhome/p/5085666.html

版权

1、缓存

persist =>storage level

对运算中间数据持久化。

对数据缓存了，就会重用。

使用场景：步骤1=>步骤2=>【步骤3.1、步骤3.2】就需要在步骤2进行缓存；每个分片都会进行缓存；有缓存就会有丢失，分片有可能丢失，会造成数据不完整，根据RDD的依赖机制，丢失的会从前边的步骤重新计算得来。

缓存场景

1、获取大量数据之后，例如：从日志文件获取了数据后，因为重新获取文件成本较高

2、经过了较长的链条计算后，重新在计算成本太高

3、单个步骤非常消耗资源：这样在这个资源后进行缓存

checkpoint

可以设置 checkpoint directory

4、checkpoint之前一般会进行缓存，checkpoint会改变RDD的依赖关系，RDD变成checkpoint RDD后，前边的所有RDD都会被移除，因为RDD的lazy，因此至少一次action之后才可以触发checkpoint。

5、引入checkpoint主要是为了避免缓存丢失造成的重新计算带来的资源消耗。

checkpoint是具体action之后，重新创建一个job来完成计算，checkpoint会产生一个新的job

6、checkpoint比缓存更可靠。

转载于:https://www.cnblogs.com/isenhome/p/5085666.html

weixin_30612769

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark RDD的缓存和检查点不同使用场景和工作机制 -- （视频笔记）

1、缓存persist =>storage level对运算中间数据持久化。对数据缓存了，就会重用。使用场景：步骤1=>步骤2=>【步骤3.1、步骤3.2】就需要在步骤2进行缓存；每个分片都会进行缓存；有缓存就会有丢失，分片有可能丢失，会造成数据不完整，根据RDD的依赖机制，丢失的会从前边的步骤重新计算得来。缓存场景1、获取大量数据之后，例如：从日志文...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。