Hadoop(六) Yarn介绍

最新推荐文章于 2024-09-26 10:06:17 发布

Allen019

最新推荐文章于 2024-09-26 10:06:17 发布

阅读量795

点赞数 17

分类专栏： # hadoop 文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/sadfasdfsafadsa/article/details/141252909

版权

hadoop 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

简介

Hadoop三大核心组件：分布式文件系统HDFS、分布式计算框架MapReduce，分布式集群资源调度框架Yarn。Yarn并不是在Hadoop初期就有的，是在Hadoop升级发展才诞生的，典型的Master-Slave架构。

YARN(Yet Another Resource Negotiator - 迄今另一个资源调度器) - 负责任务管理和资源调度

YARN是Hadoop2.X开始出现的，也是Hadoop2.X中最重要的特性之一。也正是因为YARN的出现，导致Hadoop1.X和Hadoop2.X不兼容

产生原因

内部原因

在Hadoop1.X中，没有YARN的说法，此时MapReduce分为主进程JobTracker和从进程TaskTracker。JobTracker只允许存在1个，容易出现单点故障

JobTracker负责对外接收任务，接收到任务之后需要将任务拆分成子任务(MapTask和ReduceTask)。JobTracker拆分完任务之后，将子任务分配给从进程TaskTracker。JobTracker会监控每一个TaskTracker的执行情况。在官方文档中，每一个JobTracker最多能够管理4000个TaskTracker。如果TaskTracker数量过多，导致JobTracker的效率成倍下降，甚至于导致JobTracker的崩溃

外部原因

在Hadoop产生的时候，市面上并没有太多的大数据框架，因此Hadoop在刚开始涉及的时候，只考虑MapReduce的资源调度问题

后来随着大数据的发展，产生了越来越多的计算框架，很大一部分的框架都是围绕着Hadoop使用，因为Hadoop没有考虑其他框架的资源调度问题，所以这些计算框架就产生了资源调度冲突

YARN主要包含以下组件：

ResourceManager：负责管理所有节点上的资源，接收客户端请求，分配和调度资源。
NodeManager：运行在每个工作节点上，负责监控该节点上的资源使用情况，并接收ResourceManager分配的任务。
ApplicationMaster：每个运行在YARN上的应用程序都有一个ApplicationMaster来管理应用程序的执行。
Container：一个容器是由ResourceManager分配给ApplicationMaster或任务执行的NodeManager上的资源集合。

YARN的执行流程

1、当ResourceManager收到客户端提交的任务之后，会先将这个任务临时存储下来，等待NodeManager的心跳

2、当ResourceManager收到NodeManager的心跳之后，会在心跳响应中将Job任务返回给NodeManager

3、NodeManager通过心跳响应之后，收到任务之后，就会在本节点内部开启一个ApplicationMaster进程，然后将Job任务交给这个ApplicationMaster处理

4、ApplicationMaster收到任务之后，会将Job任务来进行拆分，拆分成子任务。例如，如果是一个MapReduce程序，那么拆分成MapTask和ReduceTask

5、拆分完成之后，ApplicationMaster会给ResourceManager发送请求申请资源

6、ResourceManager收到请求之后，将请求交给内部组件ResourceScheduler处理

7、ResourceScheduler收到请求之后，会将资源的描述封装成一个Container对象返回给ApplicationMaster

8、ApplicationMaster收到资源之后，会对资源进行二次拆分，分配给具体的子任务，然后将子任务分配到不同的NodeManager上执行，并且ApplicationMaster还会监控这些子任务的执行

9、如果子任务执行失败，那么ApplicationMaster监控到之后，会自动的重启这个失败的子任务，或者会自动的将失败的子任务分配到其他的节点上重新执行

10、当Job任务结束之后，ApplicationMaster会向ResourceManager发送请求，同时请求注销自己

ResourceScheduler资源调度器

调度器的基本作用就是根据节点资源的使用情况和作业需求，将任务调度到各个节点上执行。单理解任务队列的话关键的因素有如下几个：进出方式，优先级，容量等。

Hadoop作业调度器主要有三种：FIFO、CapacityScheduler和FairScheduler，默认的资源调度器是CapacityScheduler。

先进先出调度器

FIFO一种批处理调度器，调度策略先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业。在Hadoop2.X中，默认使用是这个资源调度器，但是Hadoop3.X发生变化底层会为维系唯一的队列，任务会先进入队列，然后从队列头获取任务，为这个任务分配资源。如果资源不充足的情况下，后入队的任务就会被阻塞

容量调度器

在Hadoop3.X中，默认使用的是这个资源调度器,CapacityScheduler支持多个队列，每个队列可配置一定的资源量，每个队列采用FIFO调度策略，计算队列中正在运行的任务书和计算资源的比值，选中比值小相对空闲的队列，然后安装作业优先级和提交时间的排序。为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。这个资源调度器中，可以维系多个队列，每一个队列维系FIFO的规则。默认情况下，这个调度器中只有1个队列default.如果资源调度器中维系了多个队列，那么可以为每一个队列设置资源分配比。在提交任务的时候，可以将任务提交到不同的队列中

例如上面图例，假设100个slot分为三个队列(ABC)，按照如下分配规则：队列A给20%的资源，队列B给50%的资源，队列C给30%的资源；三个队列都按照任务的先后顺序依次执行，上面的job11、job21、job31是最先运行，也是并行运行。

公平调度器

和容量调度器原理类似，支持多队列多用户，每个队列中的资源量可以配置，同一队列中的作业公平共享队列中所有资源。

比如有三个队列(ABC)，每个队列中的job按照优先级分配资源，优先级越高分配的资源越多，但是每个job都会分配到资源以确保公平。在资源有限的情况下，每个job理想情况下获得的计算资源与实际获得的计算资源存在一种差距,，这个差距就叫做缺额。在同一个队列中，job的资源缺额越大，越先获得资源优先执行，作业是按照缺额的高低来先后执行的。

在这个资源调取其中，也可以维系多个队列,这个队列中可以保证每一个在时间上是相对公平中 - 即任务在队列中是进行轮询的.vim capacity-scheduler.xml 文件可以修改