工作流程:
0.mr程序通过job.submit()方法被提交到客户端所在节点
1.yarnrunner 向resourcemanager 申请一个application
2.rm 将该应用程序的资源路径(资源提交路径及application_id)返回给yarnrunner
3.该程序将运行所需资源(jar 包,配置文件,split信息)提交到hdfs上
4.程序资源提交完毕之后,申请运行一个mrappmaster(为AM在MR程序中的具体实现)
5.RM将用户的请求初始化为一个task,该task会被放到任务队列中,等待调度器
6.nodemanager 领取到task任务
7.该nodemanager 创建容器container,并启动mrappmaster
8.container从hdfs上拷贝资源到本地
mrappmaster获得container 后会将其与任务(map or reduce)相关信息(执行命令、执行命令需要的环境变量、jar等)封装为一个containerLounchContext对象。ContainerLounchContext对象与container信息再次封装为startContainerRequest对象
9.mrappmaster向 rm 申请运行 maptask 容器
10.rm 将运行的maptask任务分配给另外的两个nodemanager,另外两个nodemanager 分别领取任务并创建容器
当一个任务由mr的调度器分配给一个container后,mrappmaster会通过联系nodemanager 来启动container
11.mrappmaster 向两个接受到任务的nodemanager发送程序启动脚本(startContainerRequest对象),这两个nodemanager 启动maptask对数据进行分区排序
任务由一个主类为yarnchild的java应用执行。yarnchild运行在一个专门的jvm中
12.mrappmaster 向rm 申请2个容器,运行reduce task
13.reduce task 向maptask 获取相应分区的数据
14.程序运行完后,mrappmaster会向rm注销自己