【1.3】spark RDD的持久化

最新推荐文章于 2022-06-28 17:20:41 发布

hynanan

最新推荐文章于 2022-06-28 17:20:41 发布

阅读量208

点赞数

分类专栏： spark

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.RDD持久化的优点

Spark最重要的一个功能，就是在不同操作间，持久化（或缓存）一个数据集在内存中。当你持久化一个RDD，每一个结点都将把它的计算分块结果保存在内存中，并在对此数据集（或者衍生出的数据集）进行的其它动作中重用。这将使得后续的动作（action）变得更加迅速（通常快10倍）。缓存是用Spark构建迭代算法的关键。RDD的缓存能够在第一次计算完成后，将计算结果保存到内存、本地文件系统或者Tachyon(分布式内存文件系统)中。通过缓存，Spark避免了RDD上的重复计算，能够极大地提升计算速度。

2.RDD持久化的方式

Spark通过persist()或cache()方法可以标记一个要被持久化的RDD，一旦首次被触发，该RDD将会被保留在计算节点的内存中并重用。实际上cache()是使用persist()的快捷方法。

首先，在action中计算得到rdd；然后，将其保存在每个节点的内存中。Spark的缓存是一个容错的技术，如果RDD的任何一个分区丢失，它可以通过原有的转换（transformations）操作自动的重复计算并且创建出这个分区。

此外，我们可以利用不同的存储级别存储每一个被持久化的RDD。例如，它允许我们持久化集合到磁盘上、将集合作为序列化的Java对象持久化到内存中、在节点间复制集合或者存储集合到Tachyon中。我们可以通过传递一个StorageLevel对象给persist()方法设置这些存储级别。cache()方法使用了默认的存储级别—StorageLevel.MEMORY_ONLY。完整的存储级别介绍如下图

3.如何使用缓存

1：调用rdd.persist();变量可以这样设置如：rdd.persist(StorageLevel.MEMORY_ONLY); 这里使用了MEMORY_ONLY级别存储。当然也可以选择其他的如： rdd.persist(StorageLevel.DISK_ONLY());

2：调用rdd.cache()方法，cache()是rdd.persist(StorageLevel.MEMORY_ONLY)的简写，效果和他一模一样的。

3: 调用rdd.unpersist()清除缓存

------------------------------------------------------------------------------------------------------------------------------------------------------------------

以上转载自http://www.ccblog.cn/102.htm

hynanan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【1.3】spark RDD的持久化

1.RDD持久化的优点 Spark最重要的一个功能，就是在不同操作间，持久化（或缓存）一个数据集在内存中。当你持久化一个RDD，每一个结点都将把它的计算分块结果保存在内存中，并在对此数据集（或者衍生出的数据集）进行的其它动作中重用。这将使得后续的动作（action）变得更加迅速（通常快10倍）。缓存是用Spark构建迭代算法的关键。RDD的缓存能够在第一次计算完成后，将计算结果保...
复制链接

扫一扫

专栏目录