大数据相关——YARN资源管理器

最新推荐文章于 2024-11-02 17:06:08 发布

NoMissU

最新推荐文章于 2024-11-02 17:06:08 发布

阅读量265

点赞数 2

文章标签： yarn hadoop

本文链接：https://blog.csdn.net/m0_45993982/article/details/116071762

版权

大数据相关——YARN资源管理器

先学习一下YARN资源管理器，有利于学习MapReduce框架

1.YARN简介

为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop
1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架
YARN.
Apache YARN（Yet another Resource Negotiator的缩写）是Hadoop集群的资源
管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平
台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。
yarn被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通
⽤性，同样可以⽀持其他的分布式计算模式，⽐如Spark，Tez等计算框架。

2 MapReduce1.x的简介

第⼀代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其
中，HDFS由⼀个NameNode和多个DataNode组成，MapReduce由⼀个JobTracker
和多个TaskTracker组成，对应Hadoop版本为Hadoop 1.x和0.21.X，0.22.x。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-stJ2kA7H-1619183934718)(大数据相关——YARN资源管理器.assets/image-20210423185744384.png)]

-1.Client ：作业提交发起者。
-2.JobTracker ：初始化作业，分配作业，与TaskTracker通信，协调整个作业。
-3.TaskTracker ：保持JobTracker通信，在分配的数据⽚段上执⾏MapReduce任
务。

1.提交作业
编写MapReduce程序代码,创建job对象，并进行配置，比如输入和输出路径，压缩格式等，然后通过Jobclinet来提交作业。
2.作业的初始化
客户端提交完成后，JobTracker会将作业加入队列，然后进行调度，默认的调度方法是F工Fo调试方式。
3.任务的分配
TaskTracker和JobTracker之间的通信与任务的分配是通过心跳机制完成的。
TaskTracker会主动向JobTracker询问是否有作业要做，如果自己可以做，那么就会申请到作业任务，这个任务可以是MapTask也可能是ReduceTask。
4.任务的执行
申请到任务后，TaskTracker会做如下事情:
-1.拷贝代码到本地
-2.拷贝任务的信息到本地
-3.启动JVM运行任务
5.状态与任务的更新
任务在运行过程中，首先会将自己的状态汇报给TaskTracker，然后由TaskTracker汇总告之JobTracker。任务进度是通过计数器来实现的。
6.作业的完成
JobTracker是在接受到最后一个任务运行完成后，才会将任务标记为成功。此时会做删除中间结果等善后处理工作。

3.YARN的工作原理

由⼀个ResourceManager和多个NodeManager构成了yarn资源管理框架。他们是
yarn启动后⻓期运⾏的守护进程，来提供核⼼服务。
——ResourceManager，是在系统中的所有应⽤程序之间仲裁资源的最终权威，即管理整集群上的所有资源分配,内部含有⼀个Scheduler(资源调度器)
——NodeManager，是每台机器的资源管理器，也就是单个节点的管理者，负责启动和监视容器(container)资源使⽤情况，并向ResourceManager及其 Scheduler报告使⽤情况
——container:即集群上的可使⽤资源，包含cpu、内存、磁盘、⽹络等
——ApplicationMaster（简称AM）实际上是框架的特定的库，每启动⼀个应⽤程序，都会启动⼀个AM，它的任务是与ResourceManager协商资源，并与NodeManager⼀起执⾏和监视任务

在这里插入图片描述

1. 调⽤waitForCompletion⽅法每秒轮询作业的进度，内部封装了submit()⽅法，⽤于创建JobCommiter实例，并且调⽤其的submitJobInternal⽅法。提交成功后，如果有状态改变，就会把进度报告到控制台。错误也会报告到控制台
2. JobCommiter实例会向ResourceManager申请⼀个新应⽤ID，⽤于MapReduce作业ID。这期间JobCommiter也会进⾏检查输出路径的情况，以及计算输⼊分⽚。
3. 如果成功申请到ID,就会将运⾏作业所需要的资源（包括作业jar⽂件，配置⽂件和计算所得的输⼊分⽚元数据⽂件）上传到⼀个⽤ID命名的⽬录下的HDFS上。此时副本个数默认是10。
4. 准备⼯作已经做好，再通知ResourceManager调⽤submitApplication⽅法提交作业。
5. ResourceManager调⽤submitApplication⽅法后，会通知Yarn调度器（Scheduler），调度器分配⼀个容器，在节点管理器的管理下在容器中启动
application master进程。
6.application master的主类是MRAppMaster，其主要作⽤是初始化任务，并接受来⾃任务的进度和完成报告。
7.然后从HDFS上接受资源，主要是split。然后为每⼀个split创建MapTask以及参数指定的ReduceTask，任务ID在此时分配
8.然后Application Master会向资源管理器请求容器，⾸先为MapTask申请容器，然后再为ReduceTask申请容器。
9.⼀旦ResourceManager中的调度器（Scheduler），为Task分配了⼀个特定节点上的容器，Application Master就会与NodeManager进⾏通信来启动容器。
10.运⾏任务是由YarnChild来执⾏的，运⾏任务前，先将资源本地化（jar⽂件，配置⽂件，缓存⽂件）
11.然后开始运⾏MapTask或ReduceTask。
12.当收到最后⼀个任务已经完成的通知后application master会把作业状态设置为success。然后Job轮询时，知道成功完成，就会通知客户端，并把统计信息输出到控制台

4.YARN的三种调度器

Scheduler即调度器，根据容量、队列等限制条件（如每个队列分配⼀定的资源，最多执⾏⼀定数量的作业等），将系统中的资源分配给各个正在运⾏的应⽤程序。

1.FIFO Scheduler（FIFO调度器）：
FIFO 为 First Input First Output 的缩写，先进先出。FIFO 调度器将应⽤放在⼀个队列中，按照先 后顺序运⾏应⽤。这种策略较为简单，但不适合共享集群，因为⼤的应⽤会占⽤集群的所有资源，每个应⽤必须等待直到轮到⾃⼰。 
优点：简单易懂，不需要任何配置 
缺点：不适合共享集群，⼤的应⽤会占据集群中的所有资源，所以每个应⽤都必须等待，直到轮到⾃⼰执⾏。
下图，只有当job1全部执⾏完毕，才能开始执⾏job2

在这里插入图片描述

2.容量调度器 Capacity Scheduler 
允许多个组织共享⼀个 Hadoop 集群。使⽤容量调度器时，⼀个独⽴的专⻔队列保证⼩作业⼀提交就可以启动。
优点：⼩任务不会因为前⾯有⼤任务在执⾏，⽽只能⼀直等下去
缺点：这种策略是以整个集群利⽤率为代价的，这意味着与使⽤FIFO调度器相⽐，⼤作业执⾏的时间要⻓上⼀些。

在这里插入图片描述

专⻔留了⼀部分资源给⼩任务，可以在执⾏job1的同时，不会阻塞job2的执⾏，但是因为这部分资源是⼀直保留给其他任务的，所以就算只有⼀个任务，也⽆法为其分配全部资源，只能让这部分保留资源闲置着，有着⼀定的资源浪费问题。

3.Fair Scheduler（公平调度器）
公平调度器的⽬的就是为所有运⾏的应⽤公平分配资源。使⽤公平调度器时，不需要预留⼀定量的资源，因为调度器会在所有运⾏的作业之间动态平衡资源，第⼀个（⼤）作业启动时，它也是唯⼀运⾏的作业，因⽽获得集群中的所有资源，当第⼆个（⼩）作业启动时，它被分配到集群的⼀半资源，这样每个作业都能公平共享资源。


如图所示，就像是把好⼏个任务拼接成了⼀个任务，可以充分利⽤资源，同时⼜不会
因为⼤任务在前⾯执⾏⽽导致⼩任务⼀直⽆法完成

在这里插入图片描述