Apache Yarn MapReduce作业提交流程

1)客户端向ResourceManager发送提交job的请求

2)ResourceManager向客户端返回一个job_id以及一个共享资源路径。

job_id job__系统时间戳_ _编号

共享资源路径 jar包里面包含maptask与reducetask,要想在所有节点上运行,那么必须将jar包上传到hdfs上(临时存储)

​ 默认路径:/tmp/hadoop-yarn/staging/hadoop/.staging/jobid/…

目的:存放共享资源,程序运行的jar包(程序包)

job.jar 程序打成的jar包,统一命名为job.jar

job.split 即当前job的切片信息,便于计算maptask的启动个数

job.splitmetainfo 即当前job的切片的元数据信息

job.xml 当前job所有相关的配置信息。如job.setMappClass() ,在执行map的时候直接读该配置文件,不用扫描整个jar包

3)客户端将共享资源放到hdfs上(包括jar,split,xml)

4)客户端放置资源完成后,真正的提交应用程序

5)ResourceManager为当前的应用程序分配一个资源节点

6)resourceManager回到对应资源节点上启动container再启动MRAppMaster

7)MRAppMaster进行job的初始化,生成一个applicationid,生成一个当前job的作业簿(记录maptask和reducetask的运行进度和状态)

8)MRAPPMaster会到对应的共享资源路径下下载共享资源。

9)MRAPPMaster会向ResourceManager申请maptask和reducetask运行的资源(采用RPC通信机制,先申请maptask的资源,然后申请reducetask的资源,在申请maptask的时候回根据其切片的顺序来申请)

10)ResourceManager向MRAppMaster返回对应的资源节点(数据本地化:优先选取数据所在节点)

11)MRAPPMaster会与对应的节点通信,先启动该节点上的container

12)当前的节点会先到共享资源路径下去下载共享资源。

13)开始启动maptask任务。

14)maptask在运行过程中会向MRAppMaster汇报自己的运行状态和进度。

15)MRAPPMaster获取到有一个maptask运行完成,准备进行数据fetch.

16)MRAppMaster会到对应的节点上启动container

17)reducetask节点会先到对应的共享资源路径下下载共享资源。

18)等全部maptask完成,开始启动reducetask任务。reducetask在运行过程中,会向MRAPPMaster汇报自己的进度和状态。

19)当maptask或者reducetask运行完成,MRAPPMaster就会进行资源回收。

20)整个应用程序运行完毕,MRAPPMaster会向ResourceManager注销自己

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值