spark从入门到放弃二十一:Spark 性能优化(4)对多次使用的RDD进行持久化或者checkpoint

43 篇文章 1 订阅

文章地址:http://www.haha174.top/article/details/254892
这里写图片描述

如图在这里可以很清楚的看到对一个RDD前后进行了两次操作。在第一次的时候先计算出一个RDD然后计算出第二个RDD继续往后计算。
但是对第二次RDD操作在执行的时候,由于RDD数据在执行完成之后很有可能会被立即丢弃那么这个时候就需要重新计算第一个和第二个RDD了

我们可以把第二个RDD的计算结果进行持久化放入到BlockManager。

这个时候第二次计算这个RDD的时候直接从BlockManager中取数据不需要在在一次计算第一和第二次RDD。
但是有可能存储在BlockManager中的数据会丢失掉那么在第二次计算这个RDD的时候发现没有数据会尝试取检索checkpoint的值如果读取失败则需要重新计算。
所以针对这种情况那么在第一次计算RDD的时候将数据存入到checkpoint。哪怕数据丢失了也可以在checkpoint 中找到。

欢迎关注,更多福利

这里写图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值