java SparkSubmit -xxx -xxx -xxx
提交语句会在client上开启一个提交的进程
此处只是spark在yarn cluster模式下主要的提交流程框架,主要过程如下:
1、通过启动SparkSubmit进程,内部反射运行Client类的main方法;
2、client主要是根yarn集群的rm进行交互,主要是向rm传送启动am进程的启动命令以及参数,在yarn的nm节点上启动ApplicationMaster;
3、ApplicationMaster进程启动之后反射启动用户提交的spark程序,也就是driver,注意这里是通过单独开一个线程来反射启动的;
ApplicationMaster还有一个重要的事情就是跟yarn的rm进行通信交互,向yarn主次并且获取资源,之后分配资源,分配资源考虑节点数据以及算法的优化,
之后通过线程池向分配的container发送启动executorBackend的进程启动command来启动CoarseGrainedExecutorBackend进程;
4、CoarseGrainedExecutorBackend进程main方法做的事情主要是跟driver通信,向driver注册之后进行一系列通信,启动executor并且根据通信状态执行具体的task;
5、task分配涉及到后续的driver的任务分解,stage确定,以及分区task分配的工作了。
JVM -Process (SparkSubmit) main方法
1 SparkSubmit
//启动进程
--main
//封装进程启动的xxx参数
--new SparkSubmitArguments
//提交
--submit