1)客户端向ResourceManager发送提交job的请求
2)ResourceManager向客户端返回一个job_id以及一个共享资源路径。
job_id job__系统时间戳_ _编号
共享资源路径 jar包里面包含maptask与reducetask,要想在所有节点上运行,那么必须将jar包上传到hdfs上(临时存储)
默认路径:/tmp/hadoop-yarn/staging/hadoop/.staging/jobid/…
目的:存放共享资源,程序运行的jar包(程序包)
job.jar 程序打成的jar包,统一命名为job.jar
job.split 即当前job的切片信息,便于计算maptask的启动个数
job.splitmetainfo 即当前job的切片的元数据信息
job.xml 当前job所有相关的配置信息。如job.setMappClass() ,在执行map的时候直接读该配置文件,不用扫描整个jar包
3)客户端将共享资源放到hdfs上(包括jar,split,xml)
4)客户端放置资源完成后,真正的提交应用程序
5)ResourceManager为当前的应用程序分配一个资源节点
6)resourceManager回到对应资源节点上启动container再启动MRAppMaster
7)MRAppMaster进行job的初始化,生成一个applicationid,生成一个当前job的作业簿(记录maptask和reducetask的运行进度和状态)
8)MRAPPMaster会到对应的共享资源路径下下载共享资源。
9)MRAPPMaster会向ResourceManager申请maptask和reducetask运行的资源(采用RPC通信机制,先申请maptask的资源,然后申请reducetask的资源,在申请maptask的时候回根据其切片的顺序来申请)
10)ResourceManager向MRAppMaster返回对应的资源节点(数据本地化:优先选取数据所在节点)
11)MRAPPMaster会与对应的节点通信,先启动该节点上的container
12)当前的节点会先到共享资源路径下去下载共享资源。
13)开始启动maptask任务。
14)maptask在运行过程中会向MRAppMaster汇报自己的运行状态和进度。
15)MRAPPMaster获取到有一个maptask运行完成,准备进行数据fetch.
16)MRAppMaster会到对应的节点上启动container
17)reducetask节点会先到对应的共享资源路径下下载共享资源。
18)等全部maptask完成,开始启动reducetask任务。reducetask在运行过程中,会向MRAPPMaster汇报自己的进度和状态。
19)当maptask或者reducetask运行完成,MRAPPMaster就会进行资源回收。
20)整个应用程序运行完毕,MRAPPMaster会向ResourceManager注销自己