Yarn 工作机制 & job的提交流程 & 调度器
1)Yarn 基本概述
2)Yarn 基本架构
3)Yarn 工作机制,job提交全过程
4)yarn的资源调度器: scheduler
1)Yarn 基本概述
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。
2)Yarn 基本架构
YARN主要由ResourceManager、NodeManager(两个常驻进程)、ApplicationMaster和Container(临时进程,有job才会启动)等组件构成。
只有ResourceManager才能分配和调度资源(启动NM、启动Task)
而ApplictionMaster只是负责向RM申请资源和分配job
(比如,提交的job切分处理需要3个task,那么AM就会向RM申请运行3个task),RM收到请求,比如运行3个task需要启动2个NM,那么RM就会启动2个NM,然后将NM的地址信息、元数据信息发给AM,然后AM就会把job的3个切片发到这些NM上做计算。
Yarn的资源调度主要是内存
3)Yarn 工作机制,job提交全过程
job提交全过程:
(1)job提交
第1步:Client调用job.waitForCompletion()方法,向整个集群提交MapReducejob。
第2步:Client 向ResourceManager申请一个jobId。
第3步:ResourceManager给Client 返回该job资源的提交路径(临时目录 + jobId生成的路径)。
第4步:Client 提交jar包、切片信息和配置文件到指定的资源提交路径。
第5步:Client 提交完资源后,向ResourceManager申请运行MrAppMaster。
(2)作业初始化
第6步:当ResourceManager收到Client 的请求后,先将该job添加到容量调度器(队列)中。
第7步:通知一个空闲的NodeManager领取到该Job。
第8步:该NodeManager创建Container,并产生一个MrAppmaster。
第9步:然后下载Client 提交的资源到本地。
(3)任务分配
第10步:MrAppMaster向ResourceManager申请运行多个MapTask任务资源。
第11步:ResourceManager将运行MapTask任务分配给另外两个NodeManager,然后分别领取任务并创建容器。
(4)任务运行(此阶段为MapTask、shuffle、ReduceTask数据处理阶段)
第12步:MrAppMaster向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,然后MapTask对数据分区排序等操作。
第13步:MrAppMaster等待所有MapTask运行完毕后,向ResourceManager申请容器,运行ReduceTask。
第14步:ReduceTask拷贝MapTask相应分区的数据,然后就行操作。
第15步:程序运行完毕后,MrAppMaster会向ResourceManager申请注销自己。
(5)进度和状态更新
YARN 中的任务,将其进度和状态(包括Container)返回给MrAppMaster, Client 每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向MrAppMaster请求进度更新, 展示给用户。
(6)job完成
除了向MrAppMaster请求job进度外, Client 每5秒都会通过调用waitForCompletion()来检查job是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。job完成之后, MrAppMaster和Container会清理工作状态。job的信息会被历史服务器存储,以备之后用户核查。
4)yarn的资源调度器: scheduler
(1)FIFO scheduler :先进先出调度方案
当一个调度任务进入到调度器之后,那么调度器会优先满足第一个MR任务全部资源,此时就有可能将资源全部都获取到了,导致后续的任务本身的运行时间很短,但是由于第一个MR将资源全部抢走了, 导致后续任务全部等待。
此种调度器在生产中 一般不会使用,因为生产中yarn平台不是你自己的。
(2)Fair scheduler:公平调度器
可以预先分配出多个队列, 相当于对资源进行预先的划分。
(3)capacity scheduler:容量调度器
此种调度器是有 Yahoo 提供一种调度方案,同时也是当下Apache版本的hadoop默认调度方案。每个队列,可以指定占用多少的百分比的资源,从而保证,大的任务可以有单独的队列来运行,并且小的任务,也可以正常的运行。