循序渐进大数据组件之--Spark中cache和persist的区别

最新推荐文章于 2022-03-03 15:25:04 发布

Alex_81D

最新推荐文章于 2022-03-03 15:25:04 发布

阅读量509

点赞数

分类专栏：大数据从入门到精通文章标签： spark

本文链接：https://blog.csdn.net/Alex_81D/article/details/111926318

版权

大数据从入门到精通专栏收录该内容

50 篇文章 20 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细探讨了Spark中cache和persist的功能，二者都用于RDD和DataFrame的缓存，以提高运算效率。cache是persist的快捷方式，默认使用MEMORY_ONLY级别。persist则允许指定不同的存储级别，如MEMORY_ONLY、MEMORY_AND_DISK等，以平衡内存使用和CPU效率。在选择存储级别时，应考虑数据量、计算成本和容错需求。DataFrame的cache默认为MEMORY_AND_DISK，与RDD有所区别。正确使用cache和persist能够有效提升大规模数据处理的性能。

摘要由CSDN通过智能技术生成

1.首先解释一下这两个方法的作用：

为spark做持久化，cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间

Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓存是迭代算法和快速的交互式使用的重要工具

数据将会在第一次 action 操作时进行计算，并缓存在节点的内存中。Spark 的缓存具有容错机制，如果一个缓存的 RDD 的某个分区丢失了，Spark 将按照原来的计算过程，自动重新计算并进行缓存。在 shuffle 操作中（例如 reduceByKey），即便是用户没有调用 persist 方法，Spark 也会自动缓存部分中间数据。这么做的目的是，在 shuffle 的过程中某个节点运行失败时，不需要重新计算所有的输入数据。如果用户想多次使用某个 RDD，强烈推荐在该 RDD 上调用 persist 方法。

2.接下来我们看看源码（基于Spark 1.6.0 的源码）：

声明：这个是rdd的，不是df的，df的有一点不太一样

  /**
   * Persist this Dataset with the default storage level (`MEMORY_AND_DISK`).
   *
   * @group basic
   * @since 1.6.0
   *

了解本专栏

超级会员免费看

Alex_81D

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
循序渐进大数据组件之--Spark中cache和persist的区别

1.首先解释一下这两个方法的作用：为spark做持久化，cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓
复制链接

扫一扫