Spark08：【案例】RDD持久化、共享变量

最新推荐文章于 2024-07-10 12:58:03 发布

做一个有趣的人Zz

最新推荐文章于 2024-07-10 12:58:03 发布

阅读量344

点赞数

分类专栏： spark 文章标签： spark 缓存 java

本文链接：https://blog.csdn.net/weixin_40612128/article/details/123345753

版权

spark 专栏收录该内容

19 篇文章 0 订阅 ¥39.90 ¥99.00

订阅专栏

本文详细讲解了Spark中的RDD持久化原理及策略，包括MEMORY_ONLY、MEMORY_AND_DISK等，阐述了如何选择合适的持久化级别。此外，还介绍了Spark的共享变量——Broadcast Variable和Accumulator的工作原理，并通过代码示例展示了它们的应用，强调了广播变量减少网络传输和内存消耗的优势以及Accumulator的累加功能。

摘要由CSDN通过智能技术生成

一、RDD持久化原理

Spark中有一个非常重要的功能就是可以对RDD进行持久化。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition数据持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存中缓存的partition数据。
这样的话，针对一个RDD反复执行多个操作的场景，就只需要对RDD计算一次即可，后面直接使用该RDD，而不需要反复计算多次该RDD。
因为正常情况下这个RDD的数据使用过后内存中是不会一直保存的。
例如这样的操作：针对mapRDD需要多次使用的

val dataRDD = sc.parallelize(Array(1,2,3,4,5))
val mapRDD = dataRDD.map(...)
mapRDD.foreach(...)
mapRDD.saveAsTextFile(...)
mapRDD.collect()

巧妙使用RDD持久化，在某些场景下，对spark应用程序的性能有很大提升。
特别是对于迭代式算法和快速交互式应用来说，RDD持久化，是非常重要的。

要持久化一个RDD，只需要调用它的cache()或者persist()方法就可以了。
在该RDD第一次被计算出来时，就会直接缓存在每个节点中。而且Spark的持久化机制还是自动容错的，如果持久化的RDD的任何partition数据丢失

了解本专栏

做一个有趣的人Zz

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录