YARN/MRv2 Resource Manager深入剖析—RM总体架构

最新推荐文章于 2024-06-21 09:12:08 发布

GarfieldEr007

最新推荐文章于 2024-06-21 09:12:08 发布

阅读量1.2k

点赞数

分类专栏： Hadoop 文章标签： YARN MRv2 Resource Manager 剖析 RM总体架构

Hadoop 专栏收录该内容

123 篇文章

订阅专栏

本文详细解析了YARN中ResourceManager和NodeManager的管理机制，包括资源分配、安全管理、应用程序管理等方面，以及NodeManager的管理部分，如存活状态监测、节点列表管理、资源跟踪服务等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在YARN中，ResourceManager负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）。

ResourceManager主要由以下几个部分组成：

用户交互

YARN分别针对普通用户，管理员和Web提供了三种对外服务，分别对应ClientRMService、AdminService和WebApp：

ClientRMService

ClientRMService是为普通用户提供的服务，它会处理来自客户端各种RPC请求，比如提交应用程序、终止应用程序，获取应用程序运行状态等。

AdminService

YARN为管理员提供了一套独立的服务接口，以防止大量的普通用户请求使管理员发送的管理命令饿死，管理员可通过这些接口管理集群，比如动态更新节点列表，更新ACL列表，更新队列信息等。

WebApp

为了更加友好地展示集群资源使用情况和应用程序运行状态等信息，YARN对外提供了一个Web 界面，这一部分是YARN仿照haml（http://haml.info/）开发的一个轻量级嵌入式Web框架。具体讨论见：https://issues.apache.org/jira/browse/MAPREDUCE-2399

NM管理

NMLivelinessMonitor

监控NM是否活着，如果一个NodeManager在一定时间（默认为10min）内未汇报心跳信息，则认为它死掉了，会将其从集群中移除。

NodesListManager

维护正常节点和异常节点列表，管理exlude（类似于黑名单）和inlude（类似于白名单）节点列表，这两个列表均是在配置文件中设置的，可以动态加载。

ResourceTrackerService

处理来自NodeManager的请求，主要包括两种请求：注册和心跳，其中，注册是NodeManager启动时发生的行为，请求包中包含节点ID，可用的资源上限等信息，而心跳是周期性行为，包含各个Container运行状态，运行的Application列表、节点健康状况（可通过一个脚本设置），而ResourceTrackerService则为NM返回待释放的Container列表、Application列表等。

AM管理

AMLivelinessMonitor

监控AM是否活着，如果一个ApplicationMaster在一定时间（默认为10min）内未汇报心跳信息，则认为它死掉了，它上面所有正在运行的Container将被认为死亡，AM本身会被重新分配到另外一个节点上（用户可指定每个ApplicationMaster的尝试次数，默认是1次）执行。

ApplicationMasterLauncher

与NodeManager通信，要求它为某个应用程序启动ApplicationMaster。

ApplicationMasterService

处理来自ApplicationMaster的请求，主要包括两种请求：注册和心跳，其中，注册是ApplicationMaster启动时发生的行为，包括请求包中包含所在节点，RPC端口号和tracking URL等信息，而心跳是周期性行为，包含请求资源的类型描述、待释放的Container列表等，而AMS则为之返回新分配的Container、失败的Container等信息。

Application管理

ApplicationACLsManager

管理应用程序访问权限，包含两部分权限：查看和修改，查看主要指查看应用程序基本信息，而修改则主要是修改应用程序优先级、杀死应用程序等。

RMAppManager

管理应用程序的启动和关闭。

ContainerAllocationExpirer

YARN不允许AM获得Container后长时间不对其使用，因为这会降低整个集群的利用率。当AM收到RM新分配的一个Container后，必须在一定的时间（默认为10min）内在对应的NM上启动该Container，否则，RM会回收该Container。

安全管理

ResourceManage自带了非常全面的权限管理机制，主要由ClientToAMSecretManager、ContainerTokenSecretManager、ApplicationTokenSecretManager等模块完成。

资源分配

ResourceScheduler

ResourceScheduler是资源调度器，它按照一定的约束条件（比如队列容量限制等）将集群中的资源分配给各个应用程序，当前主要考虑内存资源，在3.0版本中将会考虑CPU（https://issues.apache.org/jira/browse/YARN-2）。ResourceScheduler是一个插拔式模块，默认是FIFO实现，YARN还提供了Fair Scheduler和Capacity Scheduler两个多租户调度器。

参考资料：

http://hortonworks.com/blog/apache-hadoop-yarn-resourcemanager/

原创文章，转载请注明：转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/yarnmrv2-resource-manager-infrastructure/

YARN/MRv2 Resource Manager深入剖析—NM管理

NodeManager管理部分主要由三个服务构成，分别是NMLivelinessMonitor、NodesListManager和ResourceTrackerService，它们共同管理NodeManager的生存周期，接下来我们依次介绍这三个服务。

NMLivelinessMonitor

该服务周期性遍历所有NodeManager，如果一个NodeManager在一定时间（可通过参数yarn.nm.liveness-monitor.expiry-interval-ms配置，默认为10min）内未汇报心跳信息，则认为它死掉了，它上面所有正在运行的Container将被置为运行失败（RM不会重新执行这些Container，它只会通过心跳机制告诉对应的AM，由AM决定是否重新执行，如果需要，则AM重新向RM申请资源）。

NodesListManager

NodesListManager维护正常节点和异常节点列表，它管理exlude（类似于黑名单）和inlude（类似于白名单）节点列表，这两个列表所在的文件分别可通过yarn.resourcemanager.nodes.include-path和yarn.resourcemanager.nodes.exclude-path配置（每个节点host占一行），其中，exlude节点是排外节点，它们无法与RM取得连接（直接在RPC层抛出异常，导致NM死掉），默认情况下，这两个列表均为空，表示任何节点均可接入RM。最重要的一点是，这两个文件均可以动态加载。

ResourceTrackerService

ResourceTrackerService负责处理来自各个NodeManager的请求，主要包括两种请求：注册和心跳，其中，注册是NodeManager启动时发生的行为，请求包中包含节点ID，可用的资源上限等信息，而心跳是周期性行为，包含各个Container运行状态，运行的Application列表、节点健康状况（可通过一个脚本设置），而ResourceTrackerService则为NM返回待释放的Container列表、Application列表等。

当一个NM启动时，他所做的第一件事是向RM注册，这是通过RPC函数ResourceTracker.registerNodeManager()实现的。

NM启动时候，它会周期性的通过RPC函数ResourceTracker. nodeHeartbeat ()汇报心跳，具体包含各个Container运行状态、运行的Application列表、节点健康状况等信息，而RM则位置返回需要释放的Container列表，Application列表等。

原创文章，转载请注明：转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/yarnmrv2-resource-manager-nm-manager/