Hadoop学习之路 --- YARN（资源管理系统）

最新推荐文章于 2024-08-10 02:40:24 发布

Mai_Noe

最新推荐文章于 2024-08-10 02:40:24 发布

阅读量1.1k

点赞数

文章标签： YARN Scheduler NameManager NodeManager Container

本文链接：https://blog.csdn.net/Mai_NO/article/details/82960599

版权

Apache YARN(Yet Another Resource Negotiator的缩写)是Hadoop的集群资源管理系统。YARN被引入Hadoop2，最初是为了改善MapReduce的实现，但它具有足够的通用性，同样可以支持其他的分布式计算模式。

----<<Hadoop权威指南>>

名词解释：

什么是YARN：

集群资源管理系统，即可以管理集群中所有机器的资源（如cpu，内存），让集群中的资源可以为同一个任务发挥作用，从而达到加快任务处理速度的目的。即当要处理一个大数据任务时，由HDFS使得数据块分布不同机器上，然后由YARN分配每台机器处理其相应数据块所需的资源，并监视其处理。

什么是Scheduler（调度器）:

Scheduler即调度器，根据容量、队列等限制条件（如每个队列分配一定的资源，最多执行一定数量的作业等），将系统中的资源分配给各个正在运行的应用程序。

首先是YARN的几个比较大的特点：

1.可扩展性：

由于 MapReduce1 总的 jobtracker 必须同时管理作业调度和任务跟踪，当集群的规模超过一定程度（比如节点数超过 4000，任务数超过 40000），MapReduce1 就会遇到扩展瓶颈。而在 YARN 中，作业调度由ResourceManager 负责，任务的跟踪由 NodeManager 中的 Application Master 负责。YARN 利用资源管理器与Application Master 分离的架构解决了这个局限，可以扩展到近 10000 个节点和 100000 个任务。

2.可用性：

由于 MapReduce1 中的 jobtracker 内存中包含大量快速变化的负责状态（比如任务的执行状态），这使得改进jobtracker 让其具有高可用非常困难。但 YARN 中将作业调度和跟踪职责划分之后，就变成了分别对资源管理器和 YARN 应用的高可用，而对ResourceManager 高可用和 YARN 应用的高可用要容易得多。

3.利用率：

MapReduce1 中为每个 tasktracker 分配的 slot 是固定长度的，而且区分了 map slot 和 reduce slot，这会导致两者任务不匹配的时候，其中的一类 slot 空闲，利用率不足。而 YARN 中，一个节点管理器管理一个资源池，而不是固定数目的 slot。不会出现 MapReduce1 中的情况。

4.多租户：

YARN 不仅仅适用于 MapReduce，它对外开放了 Hadoop，可以在 YARN 上运行包括 MapReduce1、MapReduce2 以及其他应用，如 Spark 等。

YARN的组成：

YARN 按功能可分为资源管理器和任务的调度与监控，并将它们分别纳入两个独立的守护进程，YARN通过两类长期运行的守护进程提供自己的核心服务ResourceManager(资源管理器)和NodeManager(节点管理器)组成。基本思想为一个全局的 ResourceManager 和每个应用节点运行一个 NodeManager。

ResourceManager的组成：

ResourceManager由Scheduler（调度器）和 ApplicationsManager（应用程序管理器）组成。

各个组件的功能：

ResourceManager：

全权负责整个集群的资源管理。包括应用程序提交、与Scheduler调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态（这里是ApplicationsManager的功能）并在失败时重新启动它等。

Scheduler（调度器）：

负责资源的调度，它是可插拔的，比如支持 CapacityScheduler，FairScheduler 等。比如ApplicationMaster向ApplicationsManager申请资源时，给多少资源，这就是Scheduler做的事情了。

ApplicationsManager（应用程序管理器）：

负责接受作业请求，协商第一个 Container 来启动应用特ApplicationMaster，并负责在ApplicationMaster 失败的时候重启（在ApplicationMaster 重启成功前，其各个Container中的Task并不会中断，而是继续执行，执行完成后变等待新任务，在ApplicationMaster重启后，给其分配新任务，之后便继续执行）。每个应用会有一个 ApplicationMaster，它负责向 ResourceManager 的 Scheduler 申请资源，并跟踪作业的状态和监控整个过程。

NodeManager：

负责Container（容器）、监控该节点资源的使用并将它们报告给 ResourceManager 节点。即定时地向ResourceManager 汇报本节点上的资源使用情况和各个Container的运行状态；另一方面，它接收并处理来自ApplicationsManager的Container启动/停止等各种请求。

Container：

在任务运行时，在NodeManager节点上会启动一个Container（容器），有时还会被分配启动一个ApplicationMaster。

Container 是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，ResourceManager 为ApplicationMaster返回的资源便是用 Container表示的。YARN会为每个任务分配一个Container，且该任务只能使用该Container中描述的资源（怎么分配，那就是ResourceManager中的Scheduler（调度器）的任务了）。Container根据应用程序的需求动态生成的。

ApplicationMaster是每个程序独有的，唯一的，可以说集群中有多少个ApplicationMaster，就有多少个程序在运行（注意，这里说的是程序，也就是完整的一个应用，每一个程序在运行时，是会被分成多个任务，由多个线程乃至多个进程进行处理的）。ApplicationMaster则负责与RM调度器协商以获取资源（用Container表示），将得到的任务进一步分配给内部的任务，与NM通信以启动/停止任务，监控所有任务运行状态，并在任务运行失败时重新为任务申请资源以重启任务。

。

YARN的工作机制：

大概流程（很多细节忽略）：

Client（客户端）将应用提交到ResourceManager，ResourceManager为该应用寻找一个NodeManager节点并建立第一个Container（容器），并启动一个专属于该应用的唯一ApplicationMaster（ApplicationMaster并不在容器内部，二是在其外部），然后根据应用需要，看看是否接着建立更多容器（在其他NodeManager节点上），以便进行分布式计算，计算是在Container（容器）内部完成的，Container（容器）内部会有一个或多个Task（任务）这些任务是由程序拆分而来，通过多线程执行加快其处理速度，当任务完成后，ApplicationMaster就会向ResourceManager注销自己。