YARN Architecture
它的理论章节是hadoop的重要理论
用真实的例子解释
Hadoop 1.0和2.0
Major(big) version . minor(small) version
(主要(大)版本。小(小)版)
Now?1.2.2
Which version we are using? 2.7.3
Latest version ? 3.1
Latest is 3.2
最新是3.2
Yarn是2.0的一部分
我将用真实的例子来解释1.0和2.0
技术:技术:具有编程知识
我们有一家NIIT公司,它只开发java应用程序
任务:工作/计划的一小部分
每个数据节点都有固定的映射时隙和缩减时隙
客户1——ABC有限公司来到NIIT,要求开发JAVA项目(2个map和1个reduce)
客户2——ABC有限公司来到NIIT,要求开发JAVA项目(2个map和1个reduce)
客户3- XYZ有限公司来到NIIT并要求开发火花项目(2地图和1减少)NIIT表示抱歉
问题:
1.仅面向java。不支持任何其他语言
2.数据节点有固定的映射和缩减槽。如果所有插槽都忙,您需要等待
3.项目经理(JobTracker)很忙,因为他负责资源管理和监控
有什么疑问吗?
Hadoop 2.0 – YARN – full form? Yet Another Resource Negotiator
现在NIIT用任何语言开发项目。
PM不是技术性的没有编程知识
Master–Namenode(调度器、资源管理器)
从节点-数据节点(多个容器和1或m应用程序主节点)-节点管理器-组长
1.资源管理器:管理所有资源(CPU+内存RAM)(天、人、计算机、房间)
2.调度程序:根据策略,调度程序将使用队列(FIFO)调度作业
3.ApplicationsManager(AsM):查找可用容器以执行工作
4.应用程序主机(AM):
a)AsM为一个应用程序/项目创建应用程序主机。
b)一次申请一个AM。
c)负责应用程序生命周期。
5.容器:JVM(CPU和内存)
a)一个数据节点(4CPU和8GB RAM)可以有多个容器(4个容器(1个CPU和2 GB RAM))
b)将完成实际任务
2.0的优势
1.支持所有语言
下午2:00进行资源管理,但不进行监控(技术主管(节点经理)+项目主管(应用主管)
3.作业跟踪器1.0=RM+AsM
4.任务跟踪器1.0=NM+容器+AM+
RM:大学领导
阿斯姆:鲁巴利
NM:每个大学都有一个NIIT头——每个数据节点都有一个NM-Rupali
AM:Abhijeet(HBASE)、Manmeet(JSP)
容器:所有学生学习
注:
1.DAtaNOde=NM+多个容器+可选的ApplicationMaster
2.1应用程序管理员可以在多个数据节点上分布多个容器
3.集装箱将向AM报告
常见问题解答:如果我的AM失败了怎么办?
RM将启动一个新的AM并重新开始工作。前功尽弃
项目:使用日志文件查找包含单词“error”的行
开发人员将所有信息写入日志文件
Log.txt:10GB
第1行
第2行
.
.
.
第10000行
数据节点1–容器:第1行到第1000行…容器1
数据节点2:1001行到2000行:container2
…….
….
….
数据节点10:9001线到10000线…
常见问题解答:所有容器是否同时工作?是的,hadoop的好处。通过分发来迅速完成工作
注:
在hadoop中,数据以块的形式存储(64mb)
一个文件有许多块存储在不同的数据节点上
一个块存储3次(复制)
+++++++
Yarn是hadoop 2.0的一部分?
Replication? Copy / backup
数据存储在datablock中(1.0:64MB,2.0:128MB)
您的数据锁被复制到3个(默认)节点上
Can we change ? yes
How ? hdfs-site file dfs.replication
Hadoop如何决定哪3个数据节点?我们制定的政策
默认情况下
1.本地DN上的第一份副本
2.DN上的第二个,位于不同机架上
3.同一机架上的另一个DN/
e.g : Block A
- first copy R1 –DN1
- second Copy R2-DN4
- third copy R1-DN2
+++++++++++++
常见问题解答
1.如果datanode上的所有容器都忙着存储我的数据块,您会怎么做?
a)检查已复制数据锁的数据节点
如果有空的话
然后容器将执行此任务
其他
然后检查已复制数据锁的3个数据节点
如果有空的话
然后容器将执行此任务
其他
选项1:等,等到什么时候?我不知道
选项2:将数据复制到容器空闲的另一个datanode(您丢失了hadoop的一个称为data locality的特性)
Hadoop将在本地处理数据
2.如果我的AM应用程序管理员失败了怎么办?
RM将在NM的帮助下创建新的AM并再次执行该工作。以前完成的工作丢失
注:
1.一个数据节点可以有多个容器用于不同的项目。不仅仅是一个项目
2.AM和Container可以在diff DN上
Liveliness : to check if its alive