Spark性能优化：RDD缓存

地老鼠PN_1

于 2024-08-08 23:39:49 发布

阅读量239

点赞数 6

文章标签： spark 性能优化缓存

本文链接：https://blog.csdn.net/dilaoshuPN/article/details/141037277

版权

一、没有缓存的情况：

#coding:utf8
import time
from pyspark import SparkConf,SparkContext

if __name__ == "__main__":
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    conf.set("spark.ui.port", "4041")  # 显式设置 Spark UI 端口
    sc=SparkContext(conf=conf)

    rdd1=sc.textFile("./data/input_data/words.txt")
    rdd2=rdd1.flatMap(lambda x:x.split(' '))
    rdd3=rdd2.map(lambda x:(x,1))


    rdd4=rdd3.reduceByKey(lambda a,b:a+b)
    print(rdd4.collect())

    rdd5=rdd3.groupByKey()
    rdd6=rdd5.mapValues(lambda x:sum(x))
    print(rdd6.collect())

    time.sleep(1000000)

在以上的代码中血缘关系为：rdd1 --> rdd2 --> rdd3 --> rdd4，在执行rdd4.collect()后，rdd1、rdd2、rdd3、rdd4的计算结果不会保留，但他们的血缘关系还在。但是后面rdd5又有使用到rdd3，这时就要重新执行rdd1 --> rdd2 --> rdd3，以便生成rdd3的数据.

打开sparkUI，DAG显示在没有缓存的情况下，可以看到job1会重新前面的操作，重新生成rdd3.

二、加上缓存的情况：

以下代码加上了缓存机制。rdd3.persist(StorageLevel.DISK_ONLY_2),别忘了在最后释放缓存 rdd3.unpersist()。

#coding:utf8
import time
from pyspark import SparkConf,SparkContext
from pyspark import StorageLevel


if __name__ == "__main__":
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    conf.set("spark.ui.port", "4041")  # 显式设置 Spark UI 端口
    sc=SparkContext(conf=conf)

    rdd1=sc.textFile("./data/input_data/words.txt")
    rdd2=rdd1.flatMap(lambda x:x.split(' '))
    rdd3=rdd2.map(lambda x:(x,1))


    rdd3.persist(StorageLevel.MEMORY_AND_DISK)

    rdd4=rdd3.reduceByKey(lambda a,b:a+b)
    print(rdd4.collect())

    rdd5=rdd3.groupByKey()

    rdd6=rdd5.mapValues(lambda x:sum(x))
    print(rdd6.collect())
    rdd3.unpersist()
    time.sleep(1000000)

在以上代码中就不会重新计算rdd3，后面需要rdd3的时候可以直接从缓存读取数据，从而加快了处理速度。打开spark UI，显示如下。可以看到以下小绿点，rdd3已经被缓存了，前面的就不用重新执行了。