Spark RDD依赖关系

最新推荐文章于 2024-01-11 11:01:43 发布

我是A_lin呀

最新推荐文章于 2024-01-11 11:01:43 发布

阅读量189

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_42496757/article/details/105615289

版权

spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Lineage

RDD之间存在依赖关系，称为Lineage。便于容错。

RDD依赖关系查看

rdd.toDebugString 展示RDD的多级依赖关系，返回string。

(2) MapPartitionsRDD[7] at mapValues at CityADTOP3.scala:37 []
 |  ShuffledRDD[5] at groupByKey at CityADTOP3.scala:27 []
 +-(2) MapPartitionsRDD[4] at map at CityADTOP3.scala:24 []
    |  ShuffledRDD[3] at reduceByKey at CityADTOP3.scala:22 []
    +-(2) MapPartitionsRDD[2] at map at CityADTOP3.scala:16 []
       |  in/agent.log MapPartitionsRDD[1] at textFile at CityADTOP3.scala:14 []
       |  in/agent.log HadoopRDD[0] at textFile at CityADTOP3.scala:14 []

rdd.dependences 返回一个Seq[Dependency[_]]。

窄依赖：

一对一，多对一

宽依赖：

一对多，一个分区的数据被打乱到多个分区中。

DAG

DAG 有向无环图，RDD通过一系列转换形成DAG，RDD之间根据不同的依赖关系将DAG划分为不同的Stage。窄依赖：RDD转换操作在一个stage中完成。宽依赖：由于有shuffle存在，只能等到父RDD的所有分区处理完成之后，才能开始后面依赖的计算，因此宽依赖是划分stage的依据，同时也是spark的瓶颈之一。每个stage之间需要等上一个stage计算完，才能进行下一个stage的运算，其实就是等shuffle完成。

任务划分：

RDD任务划分分为：Application->job->satge->task ，一对n ，即：一个Application可对应多个job，一个job可对应多个stage，一个satage可对应多个task。

Application：初始化一个sparkContext，即生成一个Application。(AM)
job: 一个Action算子就会生成一个job。 rdd.foreach() 一个job； rdd.saveAsTextFile() 另一个job。take算子可以产生多个job，一个分区对应一个job。
stage：遇到一个宽依赖就会划分一个stage。
task ： stage是一个taskSet。将stage划分的结果发送到不同的executoe中执行即为一个task。一个stage的task数，由最后一个RDD的分区数决定。最后一个RDD有多少个分区，就会产生多少个task数。

persist 不会重构血缘关系。

检查点：

行动算子触发checkpoint。重构血缘关系。persist 不会重构血缘关系。

我是A_lin呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD依赖关系

LineageRDD之间存在依赖关系，称为Lineage。便于容错。RDD依赖关系查看rdd.toDebugString 展示RDD的多级依赖关系，返回string。(2) MapPartitionsRDD[7] at mapValues at CityADTOP3.scala:37 [] | ShuffledRDD[5] at groupByKey at CityADTOP3...
复制链接

扫一扫

专栏目录