Spark一些基础原理——Cache

最新推荐文章于 2024-01-13 07:48:29 发布

不羁之心

最新推荐文章于 2024-01-13 07:48:29 发布

阅读量473

点赞数

分类专栏： Spark 文章标签： Spark cache

本文链接：https://blog.csdn.net/dlke03/article/details/81184478

版权

Spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

lv0

cache是Spark程序设计中比较重要的一环，是对RDD的中间结算结果进行持久化，截断RDD的血统，这种持久化一般是多副本形式存在的。在Task发生调用RDD的compute计算时，其通过iterator进行计算，它会识别是否有缓存数据可以调用，如果没有则通过RDD继续计算；如果有则BlockManager从Local或者Remote获取数据，没获取到再检查checkpoint中的数据，有则获取，没有则进行计算。缓存有两种方式，一种在硬盘中缓存，另一种在内存中缓存。
其中内存缓存空间不足时会清理部分空间放入新的缓存。被清理的数据由BlockManager drop到磁盘上，赋予blockID进行调取，但这种方式得到的数据不一定完整。所以数据丢失后一般会重新进行计算。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不羁之心

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark一些基础原理——Cache

lv0cache是Spark程序设计中比较重要的一环，是对RDD的中间结算结果进行持久化，截断RDD的血统，这种持久化一般是多副本形式存在的。在Task发生调用RDD的compute计算时，其通过iterator进行计算，它会识别是否有缓存数据可以调用，如果没有则通过RDD继续计算；如果有则BlockManager从Local或者Remote获取数据，没获取到再检查checkpoint中的数据...
复制链接

扫一扫