Spark性能调优：RDD的复用及持久化

最新推荐文章于 2022-07-15 21:01:17 发布

sofeld

最新推荐文章于 2022-07-15 21:01:17 发布

阅读量314

点赞数

分类专栏：大数据分析文章标签： spark rdd

本文链接：https://blog.csdn.net/sofeld/article/details/98249281

版权

本文探讨了Spark作业中避免创建重复RDD、复用相同数据的RDD以及对多次使用的RDD进行持久化的最佳实践。通过合理选择持久化级别如MEMORY_ONLY、MEMORY_ONLY_SER和MEMORY_AND_DISK_SER，可以显著提高性能并减少不必要的计算开销。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

避免创建重复的 RDD

通常来说，开发一个 Spark 作业时，首先是基于某个数据源（比如 Hive 表或 HDFS 文件）创建一个初始的 RDD；接着对这个 RDD 执行某个算子操作，然后得到下一个 RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个 RDD 会通过不同的算子操作（比如 map、reduce 等）串起来，这个 “RDD 串”，就是 RDD lineage，也就是 “RDD 的血缘关系链”。

我们在开发过程中要注意：对于同一份数据，只应该创建一个 RDD，不能创建多个 RDD 来代表同一份数据。

在开发 RDD lineage 极其冗长的 Spark 作业时，可能会忘了自己之前对于某一份数据已经创建过一个 RDD 了，从而导致对于同一份数据，创建了多个 RDD。这就意味着，我们的 Spark 作业会进行多次重复计算来创建多个代表相同数据的 RDD，进而增加了作业的性能开销。

一个简单的例子：

<span style="color:#000000"><code>// 需要对名为“hello.txt”的HDFS文件进行一次map操作，再进行一次reduce操作。也就是说，需要对一份数据执行两次算子操作。

// 错误的做法：对于同一份数据执行多次算子操作时，创建多个RDD。
// 这里执行了两次textFile方法，针对同一个HDFS文件，创建了两个RDD出来，然后分别对每个RDD都执行了一个算子操作。
// 这种情况下，Spark需要从HDFS上两次加载hello.txt文件的内容，并创建两个单独的RDD；第二次加载HDFS文件以及创建RDD的性能开销，很明显是白白浪费掉的。
val rdd1 = sc.textFile(<span style="color:#009900 !important">"hdfs://192.168.0.0:8020/hello.txt"</span>)
rdd1.map(<span style="color:#000088 !important">...</span>)
val rdd2 = sc.textFile(<span style="color:#009900 !important">"hdfs://192.168.0.0:8020/hello.txt"</span>)
rdd2.reduce(<span style="color:#000088 !important">...</span>)

// 正确的用法：对于一份数据执行多次算子操作时，只使用一个RDD。
// 这种写法很明显比上一种写法要好多了，因为我们对于同一份数据只创建了一个RDD，然后对这一个RDD执行了多次算子操作。
// 但是要注意到这里为止优化还没有结束，由于rdd1被执行了两次算子操作，第二次执行reduce操作的时候，还会再次从源头处重新计算一次rdd1的数据，因此还是会有重复计算的性能开销。
// 要彻底解决这个问题，必须结合“原则三：对多次使用的RDD进行持久化”，才能保证一个RDD被多次使用时只被计算一次。
val rdd1 = sc.textFile(<span style="

最低0.47元/天解锁文章