一、 Yarn 简介
1、Yarn 是什么
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)
一种新的 Hadoop 资源管理器,一个通用资源管理系统
为上层提供统一的资源管理与任务调度及监控,提高了集群管理效率、资源使用率、数据共享效率
2、产生背景
在 Hadoop1.x 中 MapReduce 是 Master/Slave 结构,在集群中的表现形式为:1 个 JobTracker 带多个 TaskTracker,我们称之为 MRv1。
Master:是整个集群的唯一全局管理者,功能包括:作业管理、状态监控和任务调度等即MapReduce 中的 JobTracker。
Slave:负责任务的执行和任务状态的汇报,即 MapReduce 中的 TaskTracker。
MRv1 包括三个部分:运行时环境(JobTracker 和 TaskTracker)、编程模型(MapReduce)和数据处理引擎(Map 任务和 Reduce 任务)。
JobTracker 主要功能:
资源管理,协调平衡集群中的计算节点,合理分配。
任务调度,一个作业对应多个任务,负责任务调度、状态监控、容错管理等。
TaskTracker 主要功能:
执行任务,响应 JobTracker 命令,如启动、停止任务等
汇报心跳:汇报节点健康状况、资源使用情况等。汇报任务执行进度、任务运行状态等。
MRv1 存在的主要问题:
JobTracker 单点故障,如果它挂掉,整个系统无法运转
JobTracker 负载过重,限制了集群扩展,随着节点规模的增大,称为集群的瓶颈
仅支持 MR 计算框架,适合批处理、基于磁盘的计算
资源与计算没有很好的解耦设计,一个集群只能使用一个计算框架,如 Hadoop&MapReduce 集群、Spark 集群、Tez 集群等。造成管理复杂、资源利用率低的难题
综上所述 MRv1 有以上缺陷:扩展性受限、单点故障、难以支持 MR 之外的计算框架。多计算框架各自为战,数据共享困难,资源利用率低。这些因素催生了 Yarn 的产生。
3、Yarn 特点
Yarn的一些整理
最新推荐文章于 2022-07-16 18:36:16 发布
YARN(Yet Another Resource Negotiator)是Apache Hadoop的一种资源管理器,旨在解决Hadoop 1.x中JobTracker的单点故障和负载过重问题。YARN将资源管理和任务调度分离,实现资源的高效利用,支持多计算框架,提升集群扩展性和数据共享。其架构包括ResourceManager、NodeManager、ApplicationMaster和Container等组件,通过ApplicationMaster与ResourceManager交互进行任务调度。YARN提供了FIFO、Capacity和Fair等多种调度策略,以适应不同的集群需求。
摘要由CSDN通过智能技术生成