spark 任务划分

一、宽窄依赖

1.1 窄依赖

​ 窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我们形象的比喻为独生子女
在这里插入图片描述

1.2 宽依赖

​ 宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition,会引起shuffle,总结:宽依赖我们形象的比喻为超生
在这里插入图片描述

二、DAG

​ DAG 叫做有向无环图,原始的 RDD 通过一系列转换就形成了 DAG,根据 RDD 之间的依赖关系将 DAG 划分为不同的 Stage,对于窄依赖,partition 的处理转换在 Stage 中完成。对于宽依赖,由于有 shuffle 的存在,只能在 parent RDD 处理完成以后,才能开始接下来的计算,因此宽依赖宽划分 Stage 的依据

三、任务划分

​ RDD 任务分为:Application、Job、Stage 和 Task。

  1. Application:初始化一个 SparkContext 就生成一个 Application;
  2. Job:一个 Action 算子就会生成一个 Job;
  3. Stage:根据 Application 之间的依赖关系将 Job 划分成不同的 Stage,遇到一个宽依赖则划分一个 Stage;
    tage,遇到一个宽依赖则划分一个 Stage;
  4. Task:Stage 是一个 TaskSet,将 Stage 划分的结果发送到不同的 Executor 执行即为一个 Task。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值