Spark任务提交流程

最新推荐文章于 2022-12-10 15:57:51 发布

逆行时针

最新推荐文章于 2022-12-10 15:57:51 发布

阅读量227

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/dhyaishuai/article/details/105142926

版权

3 篇文章 0 订阅

订阅专栏

spark-submit提交程序后，dirver和application向master注册
创建SparkContext对象，其中包含DAGScheduler和TaskScheduler
driver把application信息注册给master后，master会根据App信息去worker节点起executor
executor内部会创建运行Task的线程池，然后把启动的executor反向注册给driver
DAGScheduler负责把Spark作业转化成stage的DAG，根据宽窄依赖切分stage，然后把stage封装成TaskSet的形式发送给TaskScheduler，同时DAGScheduler还会处理由于shuffle数据丢失导致的失败
TaskScheduler维护所有的TaskSet，分发Task给各个节点的Executor，监控Task的运行状态，负责重试失败的Task
tak运行完成后，sparkContext向Master注销，释放资源

spark-submit在提交的时候发送给RM，请求启动ApplicationMaster（AM），分配一个container，在某个NodeManager（NM）启动AM，但是这里的AM只是一个ExecutorLancher，功能有限
AM启动后会找RM申请container，启动Executor，AM连接其他的NM，用container的资源来启动Executor，Executor会反向注册到本地的driver上
driver发送task给Executor，计算完成后，driver回收Executor的结果