Hadoop 1.X VS Hadoop 2.X 以及　Yarn浅析-CSDN博客

一.Hadoop　１.X　　和　Hadoop　２.X

Hadoop 1.X 的组件，主要有两个

Hadoop 2.X 的组件，主要有三个：

Hadoop 1.X 的局限：

eg:10 个map作业和10个Reduce作业正在使用10+10个slots运行计算，所有的Map 作业正在运行，而所有的Reduce作业出于空闲状态，我们不能使用这10个Slots 来做其他的事情。

总之，Hadoop1.X 系统只是一单个目标的系统，我们只能用于基于MR 的应用。

在 Hadoop 2.X 为了解决1.X 的这些局限问题，提出了新的组件YARN (Yet Another Resource Negotiator).

Hadoop 1.X Job Tracker ：被分为两个组件

Hadoop 2.X Yarn 的好处

二.Hadoop　２.X　　Yarn

YARN 有三个主要组件：

　该进程在主节点上（且不一定非的在NameNode上）

　给不同的计算机应用程序以最佳的方式提供资源

　协调Scheduler 和ApplicationManager

Scheduler

２.NodeManager

３.ApplicationMaster

什么是容器（Container）？

Yarn　的架构

Step 1:Job/Application(可以是MR，Java/Scala应用，spark的DAGs作业等)通过Yarn应用的客户端提交到ResourceManager，与此同时，在NodeManager的任何容器中启动ApplicationMaster

Step 2: 在主节点上的ApplicationManager进程验证已提交的任务请求，并且通过Scheduler进行进行资源的分配

Step 3: Scheduler进程给在从节点上的ApplicationMaster分配一个容器

Step 4:NodeManager这个守护进程启动AppcationMaster服务，通过第一步的命令，在其中一个容器当中

Step 5:ApplicationMaster通过ResourceManger谈判协商其他的容器，来提供一些细节，诸如从节点的数据位置，请求的CPU，内存，核数等

Step 6:ResourceManger分配最合适的从节点资源，并且通过节点细节或是其他细节信息响应ApplicaionMaster

Step 7:ApplicationMaster 给NodeManager（建议的从节点上）发送请求，来启动容器

Step 8: 当作业执行是，ApplicationMaster管理已经请求的容器的资源，并在执行完成后通知ResourceManger

Step 9: NodeManagers周期性的通知ResourceManger，节点的可用资源的当前状态信息，这个信息可以被scheduler 在集群中的其他应用所使用。

Step 10: 如果在从节点上有任何的失败，ResourceManager 将会试着在最合适的节点上分配新的容器，那样 ApplicationMaster 能够在新的容器中完成相应的处理操作。

转载于:https://my.oschina.net/u/1416978/blog/710837

Hadoop 1.X VS Hadoop 2.X 以及 Yarn浅析