大数据开发笔记(二):Yarn分布式集群操作系统

  ✨大数据开发笔记推荐:

大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试​本文详细介绍大数据hadoop生态圈各部分知识,包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术,总结内容适合大数据开发者学习,希望能够和大家多多交流。https://blog.csdn.net/qq_36816848/article/details/113767367​​​​💯本系列目录:

1️⃣大数据开发笔记(一):HDFS介绍
2️⃣大数据开发笔记(二):Yarn分布式集群操作系统
3️⃣大数据开发笔记(三):Mapreduce
4️⃣大数据开发笔记(四):Hive数据仓库
➡️大数据开发笔记(四):Hive数据仓库
➡️大数据开发笔记(四):Hive数仓调优
5️⃣大数据开发笔记(五):Zookeeper
6️⃣大数据开发笔记(六):Flume基础学习
7️⃣大数据开发笔记(七):Kafka分布式流式处理
8️⃣大数据开发笔记(八):Spark综合总结及Sparksql
9️⃣大数据开发笔记(九):Flink基础
➡️大数据开发笔记(九):Flink综合学习
🔟大数据开发笔记(十):Hbase列存储数据库总结
➡️大数据开发笔记(十):Hbase实践

Yarn分布式集群操作系统

Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架,不再强迫使用MapReduce框架。

Yarn定位: 分布式集群操作系统

1、资源管理和调度

2、支持多个不同计算框架

3、Mapreduce框架彻底重构

1.介绍下Yarn的框架?(重要)

​ Yarn的框架也是经典的主从结构,和HDFS的一样,大体上yarn由一个ResourceManager和多个NodeManager构成,RM为主节点,NM为从节点。

​​

组件名

作用

ResourceManager

是Master上一个独立运行的进程,负责集群统一的资源管理、调度、分配等等;

ApplicationManager

相当于这个Application的监护人和管理者,负责监控、管理这个Application的所有Attempt在cluster

中各个节点上的具体运行,同时负责向Yarn ResourceManager申请资源、返还资源等;

NodeManager

是Slave上一个独立运行的进程,负责上报节点的状态(磁盘,内存,cpu等使用信息);

Container

是yarn中分配资源的一个单位,包涵内存、CPU等等资源,YARN以Container为单位分配资源;

(1) 抽象解读:

资源级别:

Resource Manger :链家总部 ----分配资源

NodeManager :链家分店店长 --- 监管工作,检查定期美容院分店

美容院总部--开100家分店

任务级别:

ApplicationManager:美容院老板--监控分店

Contianer: 美容店分店----干活

ResourceManager:

1、接收客户端请求

2、为系统资源分配

3、与NM进行心跳交互,监控集群

4、调度组件Scheduler

RM挂掉: 单点故障:基于Zookeeper实现HA,主提供服务, 备同步主的信息,如果主挂掉,立即主备切换

ApplicationManager/ApplicationMaster (MR任务启动时候jps有MRAppmaster,任务完成就没了)

1、应用程序的Master

2、每一个Job对应一个AM

3、AM和RM不在一个机器

4、AM申请RM资源调度

5、AM联合NM监控job

AM挂掉: RM负责重启 无需重新运行已完成的任务

NodeManager:(只管内存资源)

1、对应1.0TaskTracker的角色

2、负责启动应用程序的Container

3、监控内部容器资源使用情况,心跳RM

NM挂掉: 心跳消失,RM通知AM进一步处理

Container:

1、任务运行环境的封装

2、AM及普通任务均运行在Container中

3、资源代表

container数量=min(2*cores, 1.8*disks, 总内存大小/最小容量)

 (2)具体解读:

​ ResourceManager是一个全局的资源管理器,负责整个系统的资源调度管理和分配,包括处理客户端请求、启动并监控ApplicationMaster,监控NodeManager,以及分配和调度资源。

ResourceManager中由两个组件构成: Schedule调度器和ApplicationManager应用程序管理器

Schedule调度器会根据容量、队列等限制条件,对应用程序的资源需求进行资源分配。(调度器有三种:先进先出调度器,容量调度器和均分调度器)

ApplicationManager则主要负责管理整个系统中所有应用程序,接受job请求,为应用分配一个Container来运行ApplicationMaster并管理,它和ApplicationMaster的区别是Master运行在NodeManger上的,而ApplicationManager是ResourceManager内部的一个组件。

ApplicationMaster

负责管理yarn内运行的应用程序的每个实例,负责协调来自ResourceManager的资源,并通过NodeManager监控容器的执行和资源使用情况。

NodeManager

在集群上有多个,它负责每个节点上的资源使用,处理ApplicationManager的请求,以及负责接受ResourceManager的资源分配命令,分配具体的Container给应用,同时还将Container的使用情况报告给ResourceManager。

​ 这里的Container实际上是一个资源抽象概念,代表系统上分配的资源,包括内存、磁盘、IO等。

具体工作过程如下:

​1. 当客户端应用程序向ResourceManager提交应用需要的资源请求后,ResourceManager中的ApplicationManager接受到请求,并返回一个Container给NodeManger,告诉NodeManager启动一个ApplicationMaster实例。

​ 2.ApplicationMaster启动后向ResourceManager注册,此时客户端可以和ApplicationMaster直接交互,并告诉它需要的资源请求;后续ApplicationMaster继续发送资源请求给ResourceManager,待ResourceManager的Schedule处理后返回具体的Container信息,ApplicationMaster接收到资源信息后会分配给各个NodeManager来启动运行job任务(比如mr程序,内部是多个map task、reduce task)。

3.​ 在运行过程中,客户端和ApplicationMaster保持交互,可以得知程序的运行情况。ApplicationMaster此时主要监控和管理任务运行,而NodeManager会定时向ResourceManager汇报自身的运行状况和Container的使用信息,待程序运行完毕后,ApplicationMaster关闭,并向ResourceManager归还所有Container。

概括来说其过程如下:

​ 应用程序提交 --> 申请资源 --> 启动ApplicationMaster --> 申请运行任务的Container

--> 分发Container --> 运行task任务 --> task任务结束 --> 回收Container

Yarn总结:

1.Yarn 工作流程:

1.用户client将应用程序提交到RM上

2.RM为应用程序ApplicationMaster申请资源,并且与nodemanager心跳通信,来启动Application Master

3.ApplicationMaster与RM进行通信,为内部要执行的任务申请资源,一旦得到资源后,Application Master和Nodemanager通信,来启动对应任务

4.所有任务完成ApplicationMaster向RM注销,整个应用程序结束。

         另外JobHistoryServer(作业历史服务,记录在yarn中调度的作业历史运行情况) 和 Timeline Server(写日志数据),需要手动开启。

2.Yarn的动态性是指什么?

​ 是指多个应用程序的ApplicationMaster动态地和ResourceManager进行沟通,不断地申请资源,释放,再申请,再释放资源的过程。

3.Yarn的调度器有哪三种?他们的区别是什么?(重要)

​ yarn中有三种调度器选择:

FIFO Scheduler(先进先出调度器),

Capacity Scheduler(容量调度器),

Fair Scheduler(均分调度器)

三种调度器区别

hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务,比较好理解,哪个任务先进来就先完成它,在继续下一个任务。

hadoop2.x使用的默认调度器是Capacity Scheduler。Capacity Schedule调度器以队列为单位划分资源,队列有独立的资源,队列的结构和资源是可以进行配置的。

Fair Scheduler调度器会为所有job任务动态调整系统资源,且是平均分配的形式,让任务公平的共享集群资源

  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
YARN(Yet Another Resource Negotiator)是Hadoop v2版本中用于资源管理和任务调度的框架。在Hadoop v1版本中,资源管理和任务调度是由MapReduce框架本身完成的,这导致了一些问题,例如任务难以弹性调度、资源利用率低等。 YARN的出现解决了这些问题。它的工作方式是将资源管理和任务调度分离开来。YARN有三个核心组件:ResourceManager、NodeManager和ApplicationMaster。 ResourceManager是整个集群的主要协调者,负责集群资源的管理和分配。它接收来自客户端的资源请求,并根据资源容量和使用情况进行调度。ResourceManager为每个应用程序分配一个ApplicationMaster。 NodeManager是每个节点上的代理程序,负责与ResourceManager通信,并管理本地节点的资源。它监测节点上的资源使用情况,并将这些信息报告给ResourceManager,同时启动和监控容器世界。 ApplicationMaster是每个应用程序的主管,负责与ResourceManager通信,申请资源并监控任务的执行。它将任务分成多个容器,并向NodeManager发送容器启动请求。一旦容器启动,ApplicationMaster就会监控这些任务的执行情况,并向ResourceManager报告任务的状态。 YARN的资源调度器是通过使用调度器插件实现的。YARN提供了多个调度器插件,例如先进先出调度器、容量调度器和公平调度器等。这些调度器插件可以根据应用程序的资源需求、业务优先级和集群资源的配置来灵活地分配和管理资源,从而实现更高的资源利用率和更好的任务调度性能。 总的来说,YARN的资源调度器是Hadoop框架中的一个重要组件,它通过将资源管理和任务调度分离,实现了更好的弹性和资源利用率,为大数据处理提供了更高的效率和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GoAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值