大数据学习之Hadoop——15Yarn资源调度

声明: 笔记整理于尚硅谷教学课件, 本来想投转载的, 但是没法填写链接, 使用投了原创, 非本意. 侵权修改.

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

一. Yarn 基本架构

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成:

1. 各组件主要作用

1. ResourceManager(RM):
  1. 处理客户端请求
  2. 监控Nodemanager
  3. 启动或监控ApplicationMaster
  4. 资源的分配与调度
2. NodeManager(NM)
  1. 管理单个节点上的资源
  2. 处理来自ResourceManager的命令
  3. 处理来自ApplicationMaster的命令
3. ApplicationMaster(AM)
  1. 负责数据的切分
  2. 为应用程序申请资源并分配给内部的任务
  3. 任务的监控与容错
4. Container
  • Container是Yarn中的资源抽象, 它封装了某个节点上的多维度资源, 如: 内存, CPU, 磁盘, 网络等

2. 架构图

在这里插入图片描述

二. Yarn工作机制

1. Yarn工作机制流程

在这里插入图片描述

2. 工作机制详解

  1. MR程序提交到客户端所在的节点
  2. YarnRunner向ResourceManager申请一个Application。
  3. RM将该应用程序的资源路径返回给YarnRunner。
  4. 该程序将运行所需资源提交到HDFS上。
  5. 程序资源提交完毕后,申请运行mrAppMaster。
  6. RM将用户的请求初始化成一个Task。
  7. 其中一个NodeManager领取到Task任务。
  8. 该NodeManager创建容器Container,并产生MRAppmaster。
  9. Container从HDFS上拷贝资源到本地。
  10. MRAppmaster向RM 申请运行MapTask资源。
  11. RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
  12. MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
  13. MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
  14. ReduceTask向MapTask获取相应分区的数据。
  15. 程序运行完毕后,MR会向RM申请注销自己。

三. 作业提交全过程

1. 作业提交流程图

在这里插入图片描述

2. 作业提交全过程详解

1. 作业提交
  1. Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。
  2. Client向RM申请一个作业id。
  3. RM给Client返回该job资源的提交路径和作业id。
  4. Client提交jar包、切片信息和配置文件到指定的资源提交路径。
  5. Client提交完资源后,向RM申请运行MrAppMaster。
2. 作业初始化
  1. 当RM收到Client的请求后,将该job添加到容量调度器中。
  2. 某一个空闲的NM领取到该Job。
  3. 该NM创建Container,并产生MRAppmaster。
  4. 下载Client提交的资源到本地。
3. 任务分配
  1. MrAppMaster向RM申请运行多个MapTask任务资源。
  2. RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
4. 任务运行
  1. MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
  2. MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
  3. ReduceTask向MapTask获取相应分区的数据。
  4. 程序运行完毕后,MR会向RM申请注销自己。
5. 进度和状态更新
  1. YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。
6. 作业完成
  1. 除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

3. 作业提交过程之MapReduce

1. 作业提交MapReduce流程图

在这里插入图片描述

声明: 笔记整理于尚硅谷教学课件, 本来想投转载的, 但是没法填写链接, 使用投了原创, 非本意. 侵权修改.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值