CDH集群调优：内存、Vcores和DRF

最新推荐文章于 2024-08-21 13:47:24 发布

pany8125

最新推荐文章于 2024-08-21 13:47:24 发布

阅读量6.5k

点赞数

分类专栏： CDH 文章标签： yarn cpu 内存集群

4 篇文章 0 订阅

订阅专栏

最近“闲”来无事，通过CM把vcores使用情况调出来看了一眼，发现不论集群中有多少个任务在跑，已分配的VCores始终不会超过120。而集群的可用Vcores是360（15台机器×24虚拟核）。这就相当于CPU资源只用到了1/3，作为一个半强迫症患者绝对不能容忍这样的事情发生。

分析的过程不表，其实很简单就是几个参数的问题。本以为CM能智能的将这些东西配好，现在看来好像不行。以下记录结论。

DRF: Dominant Resource Fairness，根据CPU和内存公平调度资源。CDH动态资源池默认采用的DRF计划策略。简单的理解就是内存不够的时候，多余的CPU就不会分配任务了，就让他空着；CPU不够的时候，多出来的内存也不会再启动任务了。

理解这个计划策略后，再查看Yarn启动任务时资源相关的参数，发现有以下几个参数可能会产生影响：

mapreduce.map.memory.mb，map任务内存，cdh默认1G
mapreduce.map.cpu.vcores，map任务虚拟CPU核数，cdh默认1
mapreduce.reduce.memory.mb，reduce任务内存，cdh默认1G
mapreduce.reduce.cpu.vcores，reduce任务虚拟CPU核数，cdh默认1
yarn.nodemanager.resource.memory-mb，容器内存，cdh默认8G
yarn.nodemanager.resource.cpu-vcores，容器虚拟CPU核数，cdh默认8，但CM会自动检测内核数并修改，我这里被自动改成了24。

可以看到默认配置下，CPU核数和内存是1：1G的比例来启动任务的。

接着查看了下分配给Yarn的内存，果然是8×15=120G，所以可用内存比可用vcores（360个）比起来就小太多了，导致按照1：1G的比例下最多只能使用120个vcores。

~~以上只是猜想~~。