Spark分布式计算原理

罗刹海是市式市世视士

于 2023-10-10 18:43:41 发布

阅读量1.1k

点赞数

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/berbai/article/details/133753271

版权

本文深入讲解Spark的WordCount运行原理，Stage划分，Shuffle过程，RDD的依赖关系，DAG工作模式，Shuffle的最佳实践以及RDD的优化策略，包括持久化、共享变量和分区设计，同时探讨了数据倾斜问题及其解决方法。

摘要由CSDN通过智能技术生成

一、Spark WordCount运行原理

二、划分Stage

数据本地化

移动计算，而不是移动数据

保证一个Stage内不会发生数据移动

三、Spark Shuffle过程

在分区之间重新分配数据

父RDD中同一分区中的数据按照算子要求重新进入RDD的不同分区中

中间结果写入磁盘

有子RDD拉取数据，而不是由父RDD推送

默认情况下，shuffle不会改变分区数量

四、RDD的依赖关系

Lineage：血统、依赖

RDD最重要的特征之一，保存了RDD的依赖关系

RDD实现了基于Lineage的容错机制

依赖关系

宽依赖：一个父RDD的分区被子RDD的多个分区使用

窄依赖：一个父RDD的分区被子RDD的一个分区使用

宽依赖对比窄依赖

宽依赖对应shuffle操作，需要在运行时将同一个父RDD的分区传入到不同的子RDD分区中，不同的分区可能位于不同的节点，就可能涉及多个节点间数据传输

当RDD分区丢失时，Spark会对数据进行重新计算，对于窄依赖只需要重新计算一次子RDD的父RDD分区

补：最多22个元组，元组可以套元组

宽依赖容错图

结论：

相比于宽依赖，窄依赖对优化更有利

练习：判断RDD依赖关系

Map flatMap filter distinct reduceByKey groupByKey sortByKey union join

scala> val b = sc.parallelize(Array(("hello",11),("java",12),("scala",13),("kafka",14),("sun",15)))
// b: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[2] at parallelize at <console>:24

scala> val c = sc.parallelize(Array(("hello",11),("java",12),("scala",13),("kafka",14),("sun",15)))
// c: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[3] at parallelize at <console>:24

scala> b.glom.collect
// collect   collectAsync

scala> b.glom.collect
// res4: Array[Array[(String, Int)]] = Array(Array((hello,11)), Array((java,12)), Array((scala,13)), Array((kafka,14), (sun,15)))

scala> c.glom.collect
// collect   collectAsync

scala> c.glom.collect
// res5: Array[Array[(String, Int)]] = Array(Array((hello,11)), Array((java,12)), Array((scala,13)), Array((kafka,14), (sun,15)))

scala> val d = a.jion(b)
// <console>:27: error: value jion is not a member of org.apache.spark.rdd.RDD[(String, Int, Int, Int)]
//        val d = a.jion(b)  //拼写错误
                 ^
scala> val d = a.join(b)
// <console>:27: error: value join is not a member of org.apache.spark.rdd.RDD[(String, Int, Int, Int)]
//        val d = a.join(b)  //应该是bc不是ab
                 ^
scala> val d = b.join(c)   //Tab成功
// d: org.apache.spark.rdd.RDD[(String, (Int, Int))] = MapPartitionsRDD[8] at join at <console>:27

scala> d.glom.collect
// collect   collectAsync

scala> d.glom.collect
// res6: Array[Array[(String, (Int, Int))]] = Array(Array((sun,(15,15))), Array(), Array((scala,(13,13)), (hello,(11,11)), (java,(12,12)), (kafka,(14,14))), Array())

五、DAG工作原理

（1）根据RDD之间的依赖关系，形成一个DAG（有向无环图）

（2）DAGScheduler将DAG划分为多个Stage

划分依据：是否发生宽依赖（Shuffle）

划分规则：从后往前，遇到宽依赖切割为新的Stage

每个Stage由一组并行的Task组成的

六、Shuffle实践

最佳实践

提前部分聚合减少数据移动

尽量避免Shuffle

七、RDD优化

RDD持久化
RDD共享变量

最低0.47元/天解锁文章

罗刹海是市式市世视士

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark分布式计算原理

数据本地化移动计算，而不是移动数据保证一个Stage内不会发生数据移动在分区之间重新分配数据父RDD中同一分区中的数据按照算子要求重新进入RDD的不同分区中中间结果写入磁盘有子RDD拉取数据，而不是由父RDD推送默认情况下，shuffle不会改变分区数量Lineage：血统、依赖 RDD最重要的特征之一，保存了RDD的依赖关系 RDD实现了基于Lineage的容错机制依赖关系
复制链接

扫一扫