【Spark】Sprak RDD 持久化

204 篇文章 480 订阅 ¥49.90 ¥99.00

1.概述

spark中最重要的功能之一是持久性(或缓存)一个数据集在内存中操作。当你持久化一个RDD,每个节点的任何一个分区都可以存储它。它可以在内存中计算或从另外一个数据集中恢复它(或从其派生的数据集)。这允许未来的actions要快得多(通常超过10倍)。缓存是一个关键的迭代算法和快速交互使用的工具。

你可以标记一个持久化一个RDD 使用persist()或 cache()方法。第一次在一个action中计算,它将保存在当前节点的内存中。spark的缓存是高度容错的——如果RDD的任意分区丢失,它将自动重新计算使用最初创建的 transformations。

此外,每个持久化RDD可以使用不同的存储级别去存储,允许你,例如,存在磁盘上的数据集,在内存中保存它但序列化的Java对象(节省空间),跨节点复制它,或者将它存储堆超光速粒子。这些通过设定的水平 StorageLevel对象(Scala,Java,Python) persist()。的 cache()方法是一个缩写使用默认的存储水平,这是 StorageLevel.MEMORY_ONLY(反序列化对象存储在内存)。完整的存储水平是:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九师兄

你的鼓励是我做大写作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值