Spark执行原理

最新推荐文章于 2024-08-29 08:45:24 发布

uixjhn

最新推荐文章于 2024-08-29 08:45:24 发布

阅读量90

点赞数

文章标签： spark big data

本文链接：https://blog.csdn.net/qq_51536995/article/details/120168991

版权

窄依赖(narrow dependency)

父级RDD里的每个partition都对应子级RDD里的唯一一个partition的依赖关系

宽依赖(shuffle dependency)

父级RDD里的每个partition都对应子级RDD里的多个partition的依赖关系
宽依赖一定执行shuffle操作，必执行磁盘IO操作

DAG任务切割

a.通过action算子提交一个job任务，对其进行切分
b.当前job直接作为finalStage:ResultStage
c.从最后一个RDD向父级依次查找依赖关系
过滤出宽依赖，根据当前宽依赖拆分成
stage(不是具体stage名字):ShuffleMapStage
d.每个stage的依赖关系一定是窄依赖
e.由于是窄依赖，所以partition之间互不干扰，
所以每个partition都可以形成一个pipline
f.每个pipline就是一个task任务
task是spark计算过程中的最小单元
g.stage中的task数量由原始rdd的partition数量决定
每个stage中task不定长，所以也叫做taskSet
h.spark最终计算的就是每个task任务

几个关键词

a.application
我们写好的代码就是app
b.Driver
提交任务之后启动的第一个进程
创建sc，执行主方法
c.clusterManager
集群管理者
本地：没有，不需要
独立：自己本身提供 master woker
主节点通过配置文件决定
分布式：yarn
主节点与hadoop中的resourceManager共用一个
d.workerNode
工作节点
e.executor
执行任务的进程

spark执行原理

a.action算子提交任务，启动Driver
b.Driver执行主方法，创建sc
c.rdd object -> DAG有向无环图
- DAG Scheduler -> stages(taskSet)
- task Scheduler -> task
task Scheduler提交和监控任务执行
d.向clusterManager申请资源执行任务
e.clusterManager根据心跳机制选择合适的资源
f.被申请到的资源向Driver注册并申请task
g.Driver向被申请到的节点提交任务执行

三个步骤

a.任务切割
b.资源分配
c.任务执行

uixjhn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark执行原理

窄依赖(narrow dependency)父级RDD里的每个partition都对应子级RDD里的唯一一个partition的依赖关系宽依赖(shuffle dependency)父级RDD里的每个partition都对应子级RDD里的多个partition的依赖关系宽依赖一定执行shuffle操作，必执行磁盘IO操作DAG任务切割a.通过action算子提交一个job任务，对其进行切分b.当前job直接作为finalStage:ResultStagec.从最后一个RDD向父级依次查找依赖
复制链接

扫一扫