前言
为从根本上解决旧
MapReduce
框架的性能瓶颈,促进Hadoop
框架的更长远发展,从 0.23.0 版本开始,Hadoop
的MapReduce
框架完全重构,发生了根本的变化。新的Hadoop MapReduce
框架命名为MapReduceV2
或者叫Yarn
。
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序相当于运行于操作系统之上的应用程序。
- 大数据 基础概念
- 大数据 Centos基础
- 大数据 Shell基础
- 大数据 ZooKeeper
- 大数据 Hadoop介绍、配置与使用
- 大数据 Hadoop之HDFS
- 大数据 MapReduce
- 大数据 Hive
- 大数据 Yarn
- 大数据 MapReduce使用
- 大数据 Hadoop高可用HA
Yarn的重要概念
- Yarn并不清楚用户提交的程序运行机制。
- Yarn只提供运算资源的调度(用户程序向Yarn申请资源,Yarn负责分配资源)。
- Yarn中的Master是ResourceManage。
- Yarn中提供运算资源的角色是NodeManage。
- 这样一来,Yarn其实就与运行的用户程序完全解耦,就意味着Yarn上可以运行各种类型的分布式运算程序(MapReduce只是其中的一种),比如MapReduce、Storm程序、Spark程序……
- 所以Spark、Storm等运算框架都可以整合在Yarn上运行,只要他们各自的框架中符合Yarn规范的资源请求机制即可。
- Yarn就成为了一个通用的资源调度平台。企业以前存在的各种预算集群都可以整合在一个物理集群上,提高资源利用率,方便数据共享。
很棒的文章
直接看底下的文章吧~O(∩_∩)O哈哈~
- IBM官方文章:Hadoop MapReduceV2(Yarn) 框架简介
- 详细介绍了Hadoop MapReduceV1和Hadoop MapReduceV2(Yarn) 的架构变化和利弊分析。