YARN 详解

最新推荐文章于 2024-06-08 09:46:44 发布

_小笼包_

最新推荐文章于 2024-06-08 09:46:44 发布

阅读量1.1k

点赞数 1

分类专栏：大数据文章标签： YARN

本文链接：https://blog.csdn.net/guanqingqing_/article/details/92590762

版权

大数据专栏收录该内容

13 篇文章 0 订阅

订阅专栏

YARN

yarn当中的各个主要组件的介绍

ResourceManager：yarn集群的主节点，主要用于接收客户端提交的任务，并对任务进行分配。

NodeManager：yarn集群的从节点，主要用于任务的计算

ApplicationMaster：当有新的任务提交到ResourceManager的时候，ResourceManager会在某个从节点nodeManager上面启动一个ApplicationMaster进程，负责这个任务执行的资源的分配，任务的生命周期的监控等

Container：资源的分配单位，ApplicationMaster启动之后，与ResourceManager进行通信，向ResourceManager提出资源申请的请求，然后ResourceManager将资源分配给ApplicationMaster，这些资源的表示，就是一个个的container

JobHistoryServer：这是yarn提供的一个查看已经完成的任务的历史日志记录的服务，我们可以启动jobHistoryServer来观察已经完成的任务的所有详细日志信息

TimeLineServer：hadoop2.4.0以后出现的新特性，主要是为了监控所有运行在yarn平台上面的所有任务（例如MR，Storm，Spark，HBase等等）

yarn的发展历程以及详细介绍：
https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

yarn当中各个主要组件的作用

resourceManager主要作用：
            处理客户端请求
            启动/监控ApplicationMaster
            监控NodeManager
            资源分配与调度
NodeManager主要作用：
            单个节点上的资源管理和任务管理
            接收并处理来自resourceManager的命令
            接收并处理来自ApplicationMaster的命令
            管理抽象容器container
            定时向RM汇报本节点资源使用情况和各个container的运行状态
ApplicationMaster主要作用：
            数据切分
            为应用程序申请资源
            任务监控与容错
            负责协调来自ResourceManager的资源，开通NodeManager监视容的执行和资源使用（CPU,内存等的资源分配）

Container主要作用：
            对任务运行环境的抽象
            任务运行资源（节点，内存，cpu）
            任务启动命令
            任务运行环境

yarn当中的调度器

yarn我们都知道主要是用于做资源调度，任务分配等功能的，那么在hadoop当中，究竟使用什么算法来进行任务调度就需要我们关注了，hadoop支持好几种任务的调度方式，不同的场景需要使用不同的任务调度器

yarn当中的调度器介绍：

第一种调度器：FIFO Scheduler （队列调度器）
把应用按提交的顺序排成一个队列，这是一个先进先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用需求满足后再给下一个分配，以此类推。
FIFO Scheduler是最简单也是最容易理解的调度器，也不需要任何配置，但它并不适用于共享集群。大的应用可能会占用所有集群资源，这就导致其它应用被阻塞。在共享集群中，更适合采用Capacity Scheduler或Fair Scheduler，这两个调度器都允许大任务和小任务在提交的同时获得一定的系统资源。
在这里插入图片描述

第二种调度器：capacity scheduler（容量调度器，apache版本默认使用的调度器）
Capacity 调度器允许多个组织共享整个集群，每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源，这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。除此之外，队列内部又可以垂直划分，这样一个组织内部的多个成员就可以共享这个队列资源了，在一个队列内部，资源的调度是采用的是先进先出(FIFO)策略。
在这里插入图片描述
第三种调度器：Fair Scheduler（公平调度器，CDH版本的hadoop默认使用的调度器）
Fair调度器的设计目标是为所有的应用分配公平的资源（对公平的定义可以通过参数来设置）。公平调度在也可以在多个队列间工作。举个例子，假设有两个用户A和B，他们分别拥有一个队列。当A启动一个job而B没有任务时，A会获得全部集群资源；当B启动一个job后，A的job会继续运行，不过一会儿之后两个任务会各自获得一半的集群资源。如果此时B再启动第二个job并且其它job还在运行，则它将会和B的第一个job共享B这个队列的资源，也就是B的两个job会用于四分之一的集群资源，而A的job仍然用于集群一半的资源，结果就是资源最终在两个用户之间平等的共享
在这里插入图片描述

使用哪种调度器取决于yarn-site.xml当中的
yarn.resourcemanager.scheduler.class 这个属性的配置

YARN资源调度步骤

1、客户端运行job（run job，提交作业）

2、客户端从资源管理器获取新的作业id
            ★注：-------向资源管理器请求一个新应用ID，用于MapReduce作业ID。
            ●客户端得到ID后，会检查作业的输出说明。例如：如果没有指定输出目录或者输出目录已经存在，作业就不提交了，错误抛回给MapReduce程序。
             ●客户端还会计算作业的输入分片。如果分片无法计算，比如因为输入路径不存在，作业就不提交，错误返回给MapReduce程序。

3、客户端将作业资源复制到HDFS
★注：-------客户端将运行作业所需要的资源（包括作业jar文件、配置文件和计算所得的输入分片）复制到一个以作业ID命名的目录下的共享文件系统中。（作业JAR的复本较多，由mapreduce.client.submit.file.replication属性控制，默认值为10）
●因此在运行作业的任务时，集群中有很多个复本可供节点管理器访问。

4、客户端向资源管理器提交作业，通过调用资源管理器的submitApplication()方法提交作业。

5、a:资源管理器收到调用它的submitApplication()后，将请求传递给yarn调度器，调度器分配一个容器（contain）
b:资源管理器在节点管理器的管理下在容器中启动application master进程（application master进程的主类为MRAppmaster）

6、在MRAppmaster主类中对作业进行初始化

7、接受来自共享文件系统的，在客户端计算的输入分片
★补：------然后对每一个分片创建一个map任务对象以及由mapreduce.job.reduces属性(通过作业的setNumReduceTasks()方法设置)确定的多个reduce任务对象。任务ID在此时分配。

8、（如果作业不适合作为uber任务运行）根据分片以及其他信息向资源管理器申请新容器
★注：------application master会为该作业中的所有map任务和reduce任务向资源管理器请求容器。

9、一旦资源管理器的调度器为任务分配了一个特定节点上的容器，application master就通过与节点管理器的通信来启动新的容器
a:生成新的容器
b:启动容器

10、在执行任务之前，将任务需要的资源本地化，包括作业的配置文件、jar文件和所有来自分布式缓存的文件
★注：------该任务由主类为YarnChild的一个java应用程序执行。

11、运行任务(map任务或reduce任务)

在这里插入图片描述

=====================================================================
补：
☆___在第七步之后：application master必须决定如何运行构成MapReduce作业的各个任务。
             如果作业很小，就选择和自己在同一个JVM上运行任务。与在一个节点上顺序运行这些任务相比，当application master判断在新的容器中
            分配和运行的开销大于并行运行的开销时，这样的作业就称为uberized，或者作为uber任务运行
哪些是小作业？
            默认情况下，小作业就是少于10个mapper且只有一个reducer且输入大小小于一个HDFS块的作业。（通过设置mapreduce.job.ubertask.maxmaps、mapreduce.job.ubertask.maxreduces和mapreduce.job.ubertask.maxbytes可以改变这几个值）启用uber任务（对于单个作业，或者是对整个集群），具体方法是将mapreduce.job.ubertask.enable设置为true。

YARN的基本组成结构（组件）：

1）ResourceManager
RM是一个全局的资源管理器，负责整个YARN集群上的资源管理和分配。
------->有如下两个组件：
●Scheduler（调度器）：调度器根据各个应用的资源需求进行资源分配。资源分配单位用一个抽象概念“资源容器”（Container）表示。
●Applications Manager(应用程序管理器)：应用程序管理器负责管理整个系统中的所有应用程序，如启动应用程序对应的ApplicaitonMaster、监控AM运行状态并在失败时重启它。

2）ApplicationMaster
当客户端提交一个应用程序至YARN集群上时，启动一个对应的AM用于跟踪和管理这个程序。
AM的主要功能包括：
            ●向RM调度器请求资源
            ●在NM上启动/停止任务
            ●监控所有任务的运行状态，并在任务运行失败时重新为任务申请资源以重启任务
注：AM是YARN对外提供的一个接口，不同的计算框架提供该接口的实现，如MRAppMaster、SparkAppMaster等等，使得该类型的应用程序可以运行在YARN集群上。

3）NodeManager
NM是每个节点上的资源和任务管理器。NM的主要功能包括：
●接收并处理来自AM的任务启动/停止等各种请求

4）Container
Container是YARN中的资源分配单位，它将内存、CPU、磁盘、网络等资源封装在一起。
当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。

_小笼包_

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
YARN 详解

YARNyarn当中的各个主要组件的介绍yarn当中各个主要组件的作用yarn当中的调度器YARN资源调度步骤YARN的基本组成结构（组件）：yarn当中的各个主要组件的介绍ResourceManager：yarn集群的主节点，主要用于接收客户端提交的任务，并对任务进行分配。NodeManager：yarn集群的从节点，主要用于任务的计算ApplicationMaster：当有新的任务提交...
复制链接

扫一扫

专栏目录