地表最强系列之带你学YARN

什么是YARN

  • Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
  • Hadoop1的时候并没有专门的资源调度器(JobTracker负责资源管理和程序调度),所以资源问题是Hadoop1的最大问题.Hadoop2.x MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN
  • YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。

YARN的架构

  • YARN的架构是master/slaves的主从架构
    master:ResourceManager–全局资源管理,负责集群全局统一的资源管理,调度,分配
    slave:NodeManager–节点资源管理器,启动了NodeManager进程的节点,负责管理节点的资源及使用情况

YARN的核心组件

  • ResourceManager
    ResourceManager包含了(ResourceScheduler和Application Manager)
    –ResourceScheduler(资源调度器,根据节点的容量,队列情况,为应用程序分配资源)
    调度器有三种:队列调度器,容器调度器和公平调度器
    –Application Manager (应用程序管理器,负责接受Client端传输的job请求)

ResourceManage功能:
1.处理客户端请求
2.监控NodeManager
3.启动和监控ApplicationMaster,进行必要的重启
4.整个系统的资源分配和调度

  • NodeManager
    NodeManager功能
    1.本节点上的资源管理和任务管理
    2.定时向ResourceManager汇报本节点上的资源使用情况和各个Container的运行情况
    3.接受和处理来自ResourceManager的Container启动和停止的各种命令
    4.处理来自ApplicationMaster的指令,比如启动MapTask和ReduceTask指令
  • ApplicationMaster
    1.每个应用程序对应一个ApplicationMaster,负责单个应用程序的管理
    2.负责数据切片(切片的规划,由InputFormat将切片信息交给YARN,由ApplicationMaster来进行分片)
    3.为应用程序向ResourceManager申请资源(Container),并分配内部任务(MapTask和Reduce Task)
    4.与NodeManager通信来启动/停止任务,Task都是运行在Container中的
    5.负责任务的监控和容错,当某些Task运行出错,运行容错处理
  • Container
    Container是YARN中的资源抽象,封装了某个节点上的多维的资源,如内存,CPU,磁盘,网络等
    Container类似于一个虚拟机 ,可以在上面执行任务

YARN的流程

在这里插入图片描述

  • 在第三步中配置文件的加载顺序:
    1.默认配置:hdfs-default.xml 3
    2.自定义的配置:hdfs-site.xml 1
    3.程序中的配置
    Configuration() conf=new Configuration() conf.set(“fs.replication”,“2”).
    优先级:程序中的配置–>自定义的配置–>默认配置
  • 作业提交阶段
    1.Client向ResourceManager提交job,申请job_id
    2.ResourceManager返回资源提交路径和一个唯一的job_id
    3.Client将作业所需要的资源(Jar包,配置信息,分片信息等)上传到返回HDFS路径
    4.上传成功后,向ResourceManager发送请求,执行作业
  • 作业初始化阶段
    1.将请求转发到ResourceScheduler调度器
    2.ResourceScheduler会将任务放到调度队列中,当执行到相应的请求时,会通知ApplicationManager分配容器,调用NodeManager开辟的Container,创建job对应的ApplicationMaser
    3.开辟Container,启动ApplicationMaster
    4.ApplicationMaster获取HDFS上提交的文件,根据切片信息,创建MapTask和ReduceTask
  • 任务分配阶段
    1.ApplicationMaster向ResourceScheduler申请运行MapTask和ReduceTask的资源
    2.ReduceManager分派Task任务,NodeManager创建用于执行Task的容器
  • 任务运行阶段
    1.ApplicationMaster通知NodeManager启动计算
    2.NodeManager启动Task计算
    3.MapTask和ReduceTask 接受共享文件数据
    4.job执行完毕,ApplicationMaster向ResourceManager申请注销

YARN的资源调度器

  1. FIFO:先进先出调度器
  2. Capacity Scheduler:容器调度器
  3. Fair Scheduler:公平调度器

YARN的常用命令

  1. yarn application -list 查看正在运行的任务
  2. yarn application -kill 杀掉正在运行的任务
  3. yarn node -list 查看节点列表
  4. yarn node -status 节点ID
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值