yarn我们都知道主要是用于做资源调度,任务分配等功能的,那么在hadoop当中,究竟使用什么算法来进行任务调度就需要我们关注了,hadoop支持好几种任务的调度方式,不同的场景需要使用不同的任务调度器
一. Yarn调度器(Scheduler)介绍
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。
在Yarn中有三种调速器可以选择: FIFO Scheduler , Capacity Scheduler , FairScheduler 。
1.1 FIFO Scheduler (队列调度器)
把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。
FIFO Scheduler是最简单也是最容易理解的调度器,也不需要任何配置,但它并不适用于共享集
群。大的应用可能会占用所有集群资源,这就导致其它应用被阻塞。在共享集群中,更适合采用
Capacity Scheduler或Fair Scheduler,这两个调度器都允许大任务和小任务在提交的同时获得一定的系统资源。
1.2 capacity scheduler(容量调度器,apache版本默认使用的调度器)
Capacity 调度器允许多个组织共享整个集群,每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源,这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。除此之外,队列内部又可以垂直划分,这样一个组织内部的多个成员就可以共享这个队列资源了,在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。
容量调度器 Capacity Scheduler 最初是由 Yahoo 最初开发设计使得 Hadoop 应用能够被多用户使用,且最大化整个集群资源的吞吐量,现被 IBM BigInsights 和 Hortonworks HDP 所采用。
Capacity Scheduler 被设计为允许应用程序在一个可预见的和简单的方式共享集群资源,即"作业队列"。
Capacity Scheduler 是根据租户的需要和要求把现有的资源分配给运行的应用程序。CapacityScheduler 同时允许应用程序访问还没有被使用的资源,以确保队列之间共享其它队列被允许的使用资源。管理员可以控制每个队列的容量,Capacity Scheduler 负责把作业提交到队列中。
1.3 Fair Scheduler(公平调度器,CDH版本的hadoop默认使用的调度器)
Fair调度器的设计目标是为所有的应用分配公平的资源(对公平的定义可以通过参数来设置)。公平调度在也可以在多个队列间工作。举个例子,假设有两个用户A和B,他们分别拥有一个队列。当A启动一个job而B没有任务时,A会获得全部集群资源;当B启动一个job后,A的job会继续运行,不过一会儿之后两个任务会各自获得一半的集群资源。如果此时B再启动第二个job并且其它job还在运行,则它将会和B的第一个job共享B这个队列的资源,也就是B的两个job会用于四分之一的集群资源,而A的job仍然用于集群一半的资源,结果就是资源最终在两个用户之间平等的共享。
公平调度器 Fair Scheduler 最初是由 Facebook 开发设计使得 Hadoop 应用能够被多用户公平地共享整个集群资源,现被 Cloudera CDH 所采用。Fair Scheduler 不需要保留集群的资源,因为它会动态在所有正在运行的作业之间平衡资源。
1.4 小结
Yarn的调度一共分为三种:
FIFO Scheduler : 先进先出(先来后到的顺序)
Capacity Scheduler: 容量调度
Fair Scheduler: 公平调度
其中:
1、 先进先出:优先提交的,优先执行,后面提交的等待。(火车过隧道)。
2、 容量调度:允许看创建多个任务对列,多个任务对列可以同时执行。但是一个队列内部还是先进先出。CDH默认的调度器。
3、公平调度:第一个程序在启动时可以占用其他对列的资源(100%占用),当其他对列有任务提交时,占用资源的对列需要将资源还给该任务。还资源的时候,效率比较慢。
4、 使用哪种调度器取决于 yarn site.xml 当中的 yarn.resourcemanager.scheduler.class
这个属性的配置
二. yarn常用参数设置
1. 第一个参数:container分配最小内存
yarn.scheduler.minimum allocation mb 1024 给应用程序container分配的最小内存
2. 第二个参数:container分配最大内存
yarn.scheduler.maximum allocation mb 8192 给应用程序container分配的最大内存
3. 第三个参数:每个container的最小虚拟内核个数
yarn.scheduler.minimum allocation vcores 1 每个container默认给分配的最小的虚拟内核个
数
4. 第四个参数:每个container的最大虚拟内核个数
yarn.scheduler.maximum allocation vcores 32 每个container可以分配的最大的虚拟内核的
个数
5. 第五个参数:nodeManager可以分配的内存大小
yarn.nodemanager.resource.memory mb 8192 nodemanager可以分配的最大内存大小,默认
8192Mb