Spark设计原理(二)——数据缓存机制

最新推荐文章于 2023-01-16 22:38:18 发布

程研板

最新推荐文章于 2023-01-16 22:38:18 发布

阅读量445

点赞数 1

分类专栏： # Spark原理与优化文章标签： java 链表 spark 缓存 hadoop

本文链接：https://blog.csdn.net/qq_38258720/article/details/116382978

版权

Spark原理与优化专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一.复杂应用的缓存执行计划

val inputRDD = sc.parallelize(Array[(Int,String)](
  (1,"a"),(2,"b"),(3,"c"),(4,"d"),(5,"e"),(3,"f"),(2,"g"),(1,"h"),(2,"i")
),3)

val mappedRDD = inputRDD.map(r => (r._1 + 1, r._2))

val reducedByKeyRDD = mappedRDD.reduceByKey((x, y) => x + "_" + y,2)
val groupedByKeyRDD = mappedRDD.groupByKey().mapValues(v => v.toList)

reducedByKeyRDD.foreach(println)
groupedByKeyRDD.foreach(println)

val joinedRDD = reducedByKeyRDD.join(groupedByKeyRDD)

joinedRDD.foreach(println)

在这里插入图片描述

job0：
在这里插入图片描述
job1：

job2：

没使用缓存也会有skipped的原因：Spark task和Stage的跳过执行

使用缓存

val mappedRDD = inputRDD.map(r => (r._1 + 1, r._2))

mappedRDD.cache()

val reducedByKeyRDD = mappedRDD.reduceByKey((x, y) => x + "_" + y,2)
val groupedByKeyRDD = mappedRDD.groupByKey().mapValues(v => v.toList)

reducedByKeyRDD.cache()
groupedByKeyRDD.cache()

reducedByKeyRDD.foreach(println)
groupedByKeyRDD.foreach(println)

val joinedRDD = reducedByKeyRDD.join(groupedByKeyRDD)

joinedRDD.foreach(println)

在这里插入图片描述

job0：
在这里插入图片描述

job1：
在这里插入图片描述

job2：
在这里插入图片描述

二.缓存数据的写入和读取方法

写入方法

上方例子中第一个缓存：
在这里插入图片描述

val mappedRDD = inputRDD.map(r => (r._1 + 1, r._2))
mappedRDD.cache()
val reducedByKeyRDD = mappedRDD.reduceByKey((x, y) => x + "_" + y,2)

map()，cache()，shuffle前的combine()的执行顺序是怎么样的呢？
如果map()操作后，先combine()的话，则mappedRDD的数据会丢失，不会缓存。所以是先缓存，再combine()。
所以原数据有9条记录，而shuffle write有8条记录，是因为先缓存了，再combine()，combine()后少了一条记录。所以缓存的数据大小可能比shuffle write的大小大。（并且shuffle会进行序列化，也会减少大小）

缓存的数据872B， shuffle write的数据301B：

在这里插入图片描述