CDH集群调优：内存、Vcores和DRF

最新推荐文章于 2023-07-24 14:08:51 发布

javastart

最新推荐文章于 2023-07-24 14:08:51 发布

阅读量6.5k

点赞数

分类专栏： hadoop

hadoop 专栏收录该内容

104 篇文章 5 订阅

订阅专栏

CDH集群调优：内存、Vcores和DRF

yurnom 2015年08月07日

1条评论 1,124次浏览

吐槽

最近“闲”来无事，通过CM把vcores使用情况调出来看了一眼，发现不论集群中有多少个任务在跑，已分配的VCores始终不会超过120。而集群的可用Vcores是360（15台机器×24虚拟核）。这就相当于CPU资源只用到了1/3，作为一个半强迫症患者绝对不能容忍这样的事情发生。

分析的过程不表，其实很简单就是几个参数的问题。本以为CM能智能的将这些东西配好，现在看来好像不行。以下记录结论。

DRF和相关参数

DRF: Dominant Resource Fairness，根据CPU和内存公平调度资源。CDH动态资源池默认采用的DRF计划策略。简单的理解就是内存不够的时候，多余的CPU就不会分配任务了，就让他空着；CPU不够的时候，多出来的内存也不会再启动任务了。

理解这个计划策略后，再查看Yarn启动任务时资源相关的参数，发现有以下几个参数可能会产生影响：

mapreduce.map.memory.mb，map任务内存，cdh默认1G
mapreduce.map.cpu.vcores，map任务虚拟CPU核数，cdh默认1
mapreduce.reduce.memory.mb，reduce任务内存，cdh默认1G
mapreduce.reduce.cpu.vcores，reduce任务虚拟CPU核数，cdh默认1
yarn.nodemanager.resource.memory-mb，容器内存，cdh默认8G
yarn.nodemanager.resource.cpu-vcores，容器虚拟CPU核数，cdh默认8，但CM会自动检测内核数并修改，我这里被自动改成了24。

可以看到默认配置下，CPU核数和内存是1：1G的比例来启动任务的。

接着查看了下分配给Yarn的内存，果然是8×15=120G，所以可用内存比可用vcores（360个）比起来就小太多了，导致按照1：1G的比例下最多只能使用120个vcores。

~~以上只是猜想~~。

测试

为了证实我的猜想，将yarn.nodemanager.resource.memory-mb调成了16G（咱内存128G，管够）。重启yarn后，再次启动MR，于是有了下图：

可以看到参数调整前，Yarn可用内存为120G，调整后变成了240G；vcores由调整前的120变成了240。至此，证明猜想正确。

所以对于这个集群来说，由于内存为128G，内核为24个，所以完全可以将yarn.nodemanager.resource.memory-mb参数调成24G(后实际调成了96G)，这样就能将所有的CPU都利用起来了。

测试结果

yarn.nodemanager.resource.memory-mb为8G时：

Time taken: 3794.17 seconds
Total MapReduce CPU Time Spent: 3 days 10 hours 43 minutes 22 seconds 640 msec

yarn.nodemanager.resource.memory-mb为16G时：

Time taken: 2077.138 seconds
Total MapReduce CPU Time Spent: 3 days 12 hours 55 minutes 43 seconds 210 msec

可以看到确实快了很多很多。(ps:两次跑的任务所用的数据不一样，以免缓存导致第二次跑相同的任务会速度比第一次快，但两次任务所用的数据量差不多，都在650G左右)

其它

查看VCores SQL

1	SELECT allocated_vcores_cumulative , available_vcores where category = YARN_POOL and serviceName = "yarn" and queueName = root

查看分配给Yarn的内存 SQL

1	SELECT allocated_memory_mb_cumulative , available_memory_mb where category = YARN_POOL and serviceName = "yarn" and queueName = root

当然最简单的查看方式就是在CM的“动态资源池”页面看。

（转载本站文章请注明作者和出处程序员的自我修养 – SelfUp.cn ，请勿用于任何商业用途）

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
CDH集群调优：内存、Vcores和DRF

CDH集群调优：内存、Vcores和DRFyurnom2015年08月07日1条评论1,124次浏览吐槽最近“闲”来无事，通过CM把vcores使用情况调出来看了一眼，发现不论集群中有多少个任务在跑，已分配的VCores始终不会超过120。而集群的可用Vcores是360（15台机器×24虚拟核）。这就相当于CPU资源只用到了1/3，作为一个半强迫症患者绝对不能容忍这样的事
复制链接

扫一扫

专栏目录

javastart CSDN认证博客专家 CSDN认证企业博客

码龄21年

379: 原创

7137: 周排名

294: 总排名

400万+: 访问

: 等级

3万+: 积分

2456: 粉丝

2344: 获赞

640: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

常见监控摄像头专业术语（码流、分辨率、帧率）详解
凌十一: 这是详解吗？看起来一知半解
地图匹配算法实践
m0_53717592: 博主您好，本人人工智能的一名学生，现在在做GPS轨迹路网匹配，请问可以参考一下您的代码吗？我的邮箱[email protected]，十分感谢您！
Pytorch——GPT-2 预训练模型及文本生成
爱吃三丝炒蛋的工程师: 您好博主，想请问一下在读取gpt2预训练模型的时候，出现INFO:pytorch_transformers.file_utils:https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-config.json not found in cache, downloading to C:\Users\15003\AppData\Local\Temp\tmps_l92w0d ERROR:pytorch_transformers.modeling_utils:Couldn't reach server at 'https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-config.json' to download pretrained model configuration file. INFO:pytorch_transformers.file_utils:https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-pytorch_model.bin not found in cache, downloading to C:\Users\15003\AppData\Local\Temp\tmpjju7wy1_ ERROR:pytorch_transformers.modeling_utils:Couldn't reach server at 'https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-pytorch_model.bin' to download pretrained weights. Traceback (most recent call last): File "F:\deep_learning\gpt_huggingface _Poetry_finetuning\gpt2_3.py", line 45, in <module> outputs = model(tokens_tensor) TypeError: 'NoneType' object is not callable错误是为什么，连接了vpn,怎么解决
AutoGen - Build Powerful AI Agents with ChatGPT/GPT-4
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618454047。
从算法上解读自动驾驶是如何实现的？
indexoutofrange: 狗尾续貂呀

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。