Yarn知识点

HDFS=磁盘
YARN
==OS
MR,SPARK,FLINK,…====应用程序
在MR的基础上引入HIVE
1.YARN 定位:分布式操作系统
作用:资源整合,让我们资源得到最大化利用,同一套硬件资源集群上可以运行多个任务(MR,SPARK,FLINK)
2. 1.0中很重要的角色是jobtracker,这是主,承担着资源调度和任务管理的角色,相当于集两大功能于一身,真正干活的是tasktracker

1.0 jobtracker(主) tasktracker(从)
2.0 ResourceManager=》RM(主) NodeManager=>NM Application Master=>AM
2.0中将jobtracker的权力下放,
RM是jobtracker中的“资源管理”角色,负责运行中应用程序的资源分配,而不管应用程序的监控和状态跟踪。
本质:是一个独立的守护进程,运行在专有的机器上,机器的配置要足够好
AM:只是jobtracker中的“任务调度”角色
本质:是一个container,是一个特殊的container,管理其他的container,当任务提交的时候,AM是启动状态的,当任务执行完毕,AM就消失,不需要监控
NM:相当于是tasktracker,这里NM和RM 通过心跳进行通信。
container:是个进程,是由 NM启动的,作用是:真正运行任务的地方,可以理解为一个容器。
Hadoop1.0中slot就是资源,map有map slot ,reduce有reduce slot,二者的资源是不通用的,slot可以理解为小区的停车位(普通小轿车,大型卡车),进行严格限制。slot决定cpu和内存大小
假设:一个slot代表2G内存和1个cpu
—一个任务只需要1G内存和1个cpu,出现资源碎片,资源利用率偏低。
–一个任务需要3G内存,抢占其他任务的资源,集群利用率过高。
一个节点(机器),16个cpu,32G内存,在机器上配置了4个slot,相当于一个slot 等于4个cpu,8G内存,(等量划分),将我们资源进行平均化。
Hadoop2.0没有slot概念,取而代之的是container(类似于拼图,自由组装),一个机器中container的计算方法。container数量=min(2cores,1.8disks,总内存/最小容量)
cores:代表cpu个数 disks 磁盘规模,因此对最小容量进行参数配置,达到控制container数量

总结:
RM和AM本质是对jobtracker进行绝对权力的分解。AM是一个任务的主,NM是一个节点的主
1.0中 mapreduce->job
2.0中mapreduce->application
spark->application

3.容错:
RM挂掉了怎么办?主备切换
NM挂掉了怎么办(看运气)?NM上有AM,整个任务故掉了;NM上没有AM,整个任务不会挂掉
AM挂掉怎么办?RM上的RMApplicationMaster重启AM,AM的AM 在RM上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值