YARN——Hadoop的资源管理系统

最新推荐文章于 2024-06-11 23:22:17 发布

醪糟小丸子

最新推荐文章于 2024-06-11 23:22:17 发布

阅读量741

点赞数 2

分类专栏： hadoop 文章标签：大数据 yarn hadoop

本文链接：https://blog.csdn.net/laozaoxiaowanzi/article/details/114173048

版权

4 篇文章 0 订阅

订阅专栏

一、YARN是如何产生的

1.在Hadoop1.x中，mapreduce在集群中的架构是：1个Job Tracker(负责资源管理和作业调度)带多个Task Tracker（定期向Job Tracker汇报本节点的健康状况、资源使用情况、任务执行情况以及接收来自Job Tracker的命令并执行）。

2.从资源利用率的角度来看，在没有yarn之前，集群之间是独立的，例如Hadoop是一个集群，spark（计算框架）是一个集群，而Hbase又是一个集群，这样的情况就造成集群管理起来很复杂，而各个集群独立使得资源不能共享导致集群间资源浪费。

解决的思路：将所有的计算框架运行在一个集群中，共享一个集群的资源，按需分配。哪个集群需要资源就将资源分配给哪个集群，这样的集群资源利用率就高于多个独立集群的资源利用率。

3.从数据共享角度来看，海量数据在集群间移动不但耗时，硬件成本也会增加。共享集群模式可以让多种框架共享数据（HDFS上的数据）、共享硬件资源，大大减少了移动数据带来的成本（即移动计算要比移动数据好，将作业任务分配到数据所在节点上去运行，减少数据网络传输的开销）。

一个通用的资源管理系统，为上层应用提供统一的资源管理和调度。解决了集群资源利用率、数据共享、资源统一管理等方面的问题，yarn取代了Job Tracker的角色。

YARN架构（采用Master/Slave结构——主从设备模式）

Container（任务运行环境的抽象）：任务是在Container中运行的，一个Container既可以运行AM，也可以运行具体的Map、Reduce、MPI、SparkTask。

yarn的工作原理

用户向yarn提交应用程序/作业，包括AM程序，及启动AM程序的命令和用户程序；
RM为作业分配第一个Container，并与对应的NM通信，要求它在这个Container中启动该作业的AM；
AM首先向RM注册，这样用户就可以直接通过RM查询作业的运行状态;然后再为各个任务申请资源并监控任务的运行状态,直到运行结束(AM采用轮询的方式通过RPC请求向RM申请资源)；
AM一旦申请到资源,便与对应的NM通信，要求它启动任务；
NM启动任务；
各个任务通过RPC协议向AM汇报自己的状态和进度,以便AM随时掌握各个任务的运行状态,从而在任务失败时重新启动任务;
作业在运行过程中,用户可随时通过RPC向AM查询作业当前的运行状态；
作业完成后,AM向RM注销并关闭自己。

yarn的容错性

关注