初识Yarn

最新推荐文章于 2022-07-07 00:00:58 发布

暴走的Aluuubbarrrr

最新推荐文章于 2022-07-07 00:00:58 发布

阅读量262

点赞数

分类专栏：大数据文章标签： Yarn 大数据 MapReduce

本文链接：https://blog.csdn.net/qq_37162090/article/details/83142831

版权

11 篇文章 0 订阅

订阅专栏

hadoop1.x版本

这个时候并没有yarn这个概念，只有MapReduce的概念，是mapreduce的计算框架reduce中的原理部分。

第一代MapReduce

对于Map Task和Reduce Task是什么可以参考初识MapReduce .

JobTracker负责资源和任务调度的主节点，一旦挂掉，整个集群处于瘫痪状态
JobTracker负载过高
与MapReduce耦合度太高，假设Spark也要运行在这套集群上，需要自己去实现资源调度；那么这个集群就存在了两套资源调度器，这也就产生了资源隔离性问题和资源抢夺的问题。

于是为了解决这些种种问题，开发者们开发了Yarn来解决这个问题，也就是下面要说的Hadoop2.x

Yarn工作流程

client把MapReduce Application打包成jar包，使用hadoop jar指令上传到yarn集群去运行。
拿到App计算的文件的路径，去找NameNode，获取每一个Block块的位置，(假设HDFS只有两个block组成)生成一个列表(这里为假设)
block1 node01 02 03，map task最好在这三个节点上启动(为了减少网络IO)，如果这三个节点都满了，就找同机架的服务器；如果还不行，就随机找一个。
block2 node02 03 08
生成完列表后，向ResourceManager发送一个请求，为ApplicationMaster申请资源，请求启动一个ApplicationMaster(任务调度器)
RM接受客户端的申请，然后查看对应的节点上资源充不充足(不充足不启动)，随机在NodeManager中规划出一个container容器(里面包含CPU、内存等资源)
NodeManager会在容器中启动一个ApplicationMaster负责任务调度
客户端将报表交给ApplicationMaster
ApplicationMaster拿到报表后，根据报表去找RM申请资源，假设02 03资源充足，在那俩节点上启动一个container，NodeManager在容器中启动起来一个进程yarn-child
ApplicationMaster分发map task(线程)到yarn-child进程
产生磁盘文件
交给reduce task(最好也在02 03 节点)
计算完之后，在写到HDFS中