Yarn简介(一)

最新推荐文章于 2024-08-07 23:47:01 发布

luanxuedong

最新推荐文章于 2024-08-07 23:47:01 发布

阅读量2.1k

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/luanxuedong/article/details/16330397

版权

Hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Apache Hadoop Yarn是Hdoop的一个子项目，被托管在Apache基金会。Yarn被集成在Hadoop2.0中，它相比较Hadoop1.0的主要特点是分离了资源管理器和处理组件。Yarn的诞生是由于需要对存储在Hdfs上数据进行大范围交互模式处理的需求驱动的。基于Yarn的Hadoop2.0的架构提供了一个更加通用的计算平台，不仅仅包含MapReduce。

作为Hadoop2.0的一部分，Yarn掌管了资源管理的能力，而不是在MapRduce和包中，所以数据可以被新的计算范式处理。这使得MapRduce可以更加专注于做它擅长的事，处理数据。有了Yarn，你可以在Hadoop上运行各种各样的应用，所有的应用共享一个资源管理器。许多公司为了迁移到Hadoop已经开始在Yarn上开发应用。

当企业数据存储在HDFS上，能够有多种方式处理数据是很重要的。由于Hadoop2.0和Yarn，企业现在可以在Hadoop上运行流处理，交互式处理和很多其他基于Hadoop的应用。

Yarn能做什么

Yarn能够在以下方面增强Hadoop计算集群的能力：

Scalability

数据中心的计算能力能够持续的快速增长。因为Yarn ResourceManager专注于资源调度，所以它能够更容易的管理那些超大集群。

Compatibility with MapReduce

已经存在的MapReduce应用和用户可以继续在Yarn上运行，而不用中断处理做修改。

Improved cluster utilization

ResourceManager是一个纯粹的调度器，根据各种条件，优化集群资源利用率，例如能力担保，公平性和SLA。另外，不像老的版本，现在没有Named Map和Reduce Slots ，这样可以帮助更好的利用集群资源。

Support for workloads other than MapReduce

额外的编程范式，例如图处理和迭代式处理，可以用于数据处理。这些增加的处理范式可以使企业实现近实时的和增强的POI数据处理

Agility

随着MapReduce变成了用户库，它可以独立于底层的资源管理层，以更灵活的方式发展。

How YARN Works

Yarn的基本思想是分隔开JobTracker和TaskTracker的两项主要职能：

a global ResourceManager
a per-application ApplicationMaster
a per-node slave NodeManager and
a per-application Container running on a NodeManager

在一个新的，通用的hadoop系统中，ResourceManager和NodeManager用一种分布式的方式管理应用。ResourceManager拥有分配给系统中的所有应用程序资源的最终权利。每个应用程序的ApplicationMaster是一个框架实体，负责向ResourceManager申请资源和与NodeManager协同工作以执行和监视组件任务。ResourceManager中的调度程序，根据条件如队列容量，用户限制等，来负责向大量的运行中的应用程序分配资源。调度程序根据应用的资源需求来执行调度方法。NodeManager代表每一台工作机，它负责创建Application Container和监视它们的资源使用信息（如CPU，内存，硬盘，网络），向ResourceManager汇报这些信息。每一个ApplicationMaster有责任从调度器那里申请适当的资源容器，并跟踪任务状态，监控任务进程。从系统角度看，ApplicationMaster像一个标准的容器。