Yarn的前世今生
-
Yarn为什么会诞生?
- Hadoop1.0中,并没有Yarn,直到Hadoop2.0才有。Hadoop1.0中,Hadoop的核心组件是HDFS和MapReduce,Hadoop2.0中,其核心组件在HDFS和MapReduce的基础上加入了Yarn。
- 在Hadoop1,0中,存在最大的问题就是资源管理问题;此外,随着技术发展,人们已经不满于Hadoop集群中只使用MapReduce一种计算框架(例如后续出现的Spark,Mars等)。人们更希望有一套合理的管理机制,来控制整个集群的资源使用,那么随之就出现了Yarn。
-
Yarn干什么用?
- 也就是说,Yarn是一个实现集群资源管理的系统组件,为上层计算框架提供计算资源。在Hadoop中其中启动Yarn的命令如下。之后会发现系统中多了两个进程:ResourceManager(全局资源管理器,简称RM)和NodeManager(借点资源任务管理器,NM)。也可以说RM和NM合在一起就是YARN。
./start-yarn.sh
Yarn的基本架构
Yarn在设计思想上和HDFS都是主从架构(Master\Slave)。在HDFS中,NameNode是主节点,DataNode是从节点!在Yarn中,RM是主节点,NM是从节点。
ResourceManager的组成部分
RM有两个组成部分:调度器(Scheduler)和应用程序管理器(ApplicationManager)。
- ApplicationManager(应用程序管理器,简称AM)
- AM主要负责接收client端提交的job请求,为应用(MapReduce程序)分配一个Container来运行第一个Application Master,并负责监控Application Master,并在遇到失败的时候重启Application Master。
- Scheduler(调度器)
- 调度器就是为了让每一个结点都充分利用起来,并合理地分配和调度的一种管理器。
- 值得注意的是:调度器仅仅是一个单纯的调度器,他不负责从事任何具体的和应用程序相关的工作!例如运行map任务和reduce任务不是他的工作范围,监控程序、跟踪程序也不在其工作范围。
- 调度器又分为三种:1.容量调度器;2.公平调度器;3.队列调度器。
- ApplicationMaster
- 负责监控Map任务和Reduce任务,用户提交的每一个程序都会产生一个ApplicationMaster,该AM是负责整个任务的一个管理者!
- 主要功能:1.与RM的调度器RS协商获取执行资源;2.与NM通信以启动或者停止任务,其中涉及到一个内容:资源池Container;3.监控所有其下任务的执行状态(map,reduce),如果失败,则会重新申请资源来启动任务。
- Container
- Container是Yarn中的资源抽象,它分装了某个结点的多维度资源,如内存,CPU,磁盘,网络,IO。
- ApplicationMaster,map,reduce都运行在资源池。资源池主要是将结点的资源切分出来组成一个可以单独运行任务(map,reduce)的容器。
Yarn的运行原理
用一张图来表示: