yarn 工作机制原理浅析

Yarn 概述:

一个资源调度平台,负责为运算程序提供服务器资源。其上可运行各类分布式运算程序。

基本概念:

1.yarn 并不清楚用户提交的程序的运行机制

2.yarn 只负责运算资源的调度

3.yarn 中的主管角色叫ResourceManager

4.yarn 中具体提供运算资源的角色为NodeManager

 yarn 主要组件:ResourceManager、NodeManager。其中NodeManager中包含ApplicationMaster、container

RM主要作用:

1.处理客户端请求

2.启动或者监控AppMaster(告诉AppMaster空闲的NodeManager)

3.监控NodeManager(监控NodeManager 资源)

4.资源的分配及调度

NodeManager主要作用:

1.管理单个节点上的资源

2.处理来自RM的命令

3.处理来自AppMaster的命令

AppMaster 主要作用:

1.负责数据的切分(根据切分结果开启maptask与reduce task)

2.为应用程序申请资源并分配给内部的任务

3.任务的监控与容错

Container:

对任务的运行环境进行抽象,封装cpu、内存等多维度的资源及环境变量、启动命令 等任务相关信息

Yarn 运行机制:

 

工作流程:

0.mr程序通过job.submit()方法被提交到客户端所在节点

1.yarnrunner 向resourcemanager 申请一个application

2.rm 将该应用程序的资源路径(资源提交路径及application_id)返回给yarnrunner

3.该程序将运行所需资源(jar 包,配置文件,split信息)提交到hdfs上

4.程序资源提交完毕之后,申请运行一个mrappmaster(为AM在MR程序中的具体实现)

5.RM将用户的请求初始化为一个task,该task会被放到任务队列中,等待调度器

6.nodemanager 领取到task任务

7.该nodemanager 创建容器container,并启动mrappmaster

8.container从hdfs上拷贝资源到本地

mrappmaster获得container 后会将其与任务(map or reduce)相关信息(执行命令、执行命令需要的环境变量、jar等)封装为一个containerLounchContext对象。ContainerLounchContext对象与container信息再次封装为startContainerRequest对象

9.mrappmaster向 rm 申请运行 maptask 容器

10.rm 将运行的maptask任务分配给另外的两个nodemanager,另外两个nodemanager 分别领取任务并创建容器

当一个任务由mr的调度器分配给一个container后,mrappmaster会通过联系nodemanager 来启动container

11.mrappmaster 向两个接受到任务的nodemanager发送程序启动脚本(startContainerRequest对象),这两个nodemanager 启动maptask对数据进行分区排序

任务由一个主类为yarnchild的java应用执行。yarnchild运行在一个专门的jvm中

12.mrappmaster 向rm 申请2个容器,运行reduce task

13.reduce task 向maptask 获取相应分区的数据

14.程序运行完后,mrappmaster会向rm注销自己

 

yarn 资源调度器:

hadoop 作业调度器主要有FIFO、Capacity Scheduler、Fair Scheduler

hadoop 的默认资源调度器为Capacity Scheduler.

具体设置在yarn-default.xml

<property>
 <description>The class to use as the resource scheduler.</description>
 <name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</v
alue>
</property>

capacity scheduler

支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO。

为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行

限定。
调度策略:
 

计算每个队列中正在运行的任务数及其应该分得的计算资源之间的比值,选择一个该比值最小的队列,然后按照作业的优先级和提交顺序选择。同时考虑用户的资源量限制和内存限制

 

 

 

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值