资源调度器是 YARN 中最核心的组件之一,它是 ResourceManager 中的一个插拔式服务组件,负责整个集群资源的管理和分配。
Yarn 默认提供了三种可用资源调度器,分别是FIFO (First In First Out )、 Yahoo! 的 Capacity Scheduler 和 Facebook 的 Fair Scheduler。
本节会重点介绍资源调度器的基本框架,在之后文章中详细介绍 Capacity Scheduler 和 Fair Scheduler。
一、基本架构
资源调度器是最核心的组件之一,并且在 Yarn 中是可插拔的,Yarn 中定义了一套接口规范,以方便用户实现自己的调度器,同时 Yarn 中自带了FIFO,CapacitySheduler, FairScheduler三种常用资源调度器。
一)资源调度模型
Yarn 采用了双层资源调度模型。
- 第一层中,RM 中的资源调度器将资源分配给各个 AM(Scheduler 处理的部分)
- 第二层中,AM 再进一步将资源分配给它的内部任务(不是本节关注的内容)
Yarn 的资源分配过程是异步的,资源调度器将资源分配给一个应用程序后,它不会立刻 push 给对应的 AM,而是暂时放到一个缓冲区中,等待 AM 通过周期性的心跳主动来取(pull-based通信模型)
- NM 通过周期心跳汇报节点信息
- RM 为 NM 返回一个心跳应答,包括需要释放的 container 列表等信息
- RM 收到的 NM 信息触发一个NODE_UPDATED事件,之后会按照一定策略将该节点上的资源分配到各个应用,并将分配结果放到一个内存数据结构中
- AM 向 RM 发送心跳,获得最新分配的 container 资源
- AM 将收到的新 container 分配给内部任务
二)资源表示模型
NM 启动时会向 RM 注册,注册信息中包含该节点可分配的 CPU 和内存总量,这两个值均可通过配置选项设置,具体如下:
yarn.nodemanager.resource.memory-mb
:可分配的物理内存总量,默认是8Gyarn.nodemanager.vmem-pmem-ratio
:任务使用单位物理内存量对应最多可使用的虚拟内存,默认值是2.1,表示使用1M的物理内存,最多可以使用2.1MB的虚拟内存总量yarn.nodemanager.resource.cpu-vcores
:可分配的虚拟CPU个数,默认是8。为了更细粒度地划分CPU资源和考虑到CPU性能差异,YARN允许管理员根据实际需要和CPU性能将每个物理CPU划分成若干个虚拟CPU,而管理员可为每个节点单独配置可用的虚拟CPU个数,且用户提交应用程序时,也可指定每个任务需要的虚拟CPU数
Yarn 支持的调度语义:
- 请求某个节点上的特定资源量
- 请求某个特定机架上的特定资源量
- 将某些节点加入(或移除)黑名单,不再为自己分配这些节点上的资源
- 请求归还某些资源
Yarn 不支持的调度语义(随着 Yarn 的不断迭代,可能会在未来实现):
- 请求任意节点上的特定资源量
- 请求任意机架上的特定资源量
- 请求一组或几组符合某种特质的资源
- 超细粒度资源。比如CPU性能要求、绑定CPU等
- 动态调整Container资源,允许根据需要动态调整Container资源量
三)资源保证机制
当单个节点的闲置资源无法满足应用的一个 container 时,有两种策略:
- 放弃当前节点等待下一个节点;
- 在当前节点上预留一个 container 申请,等到节点有资源时优先满足预留。
YARN 采用了第二种增量资源分配机制(当应用程序申请的资源暂时无法保证时,为应用程序预留一个节点上的资源直到累计释放的空闲资源满足应用程序需求)