一、整体情况
1、服务器资源
5台datanode节点
cpu:48 查看命令:cat /proc/cpuinfo | grep processor | wc -l
内存:128G 查看命令:free -h
2、yarn资源
yarn.nodemanager.resource.cpu-vcores = 36
yarn.nodemanager.resource.memory-mb = 70G
注:datanode节点上还部署这其他程序。
3、spark资源配置项
--driver-cores Driver核心数
--driver-memory Driver内存数
--num-executors Executor个数
--executor-cores Executor核心数
--executor-memory Executor内存数
二、个人思考
1、driver资源分配
driver本身不负责计算,并且我的spark程序不涉及到需要driver端加载或者driver搜集的代码,所以driver端的资源可以给的较少。
--driver-cores=2
--driver-memory=2G
2、executor资源分配
executor负责实际的计算任务,应该根据整体资源情况适当多分配资源。
2.1 内存:
部分资料上建议executor的内存数不建议超过5G,否则会有性能损失。所以暂时设置为4G。
((5 * 70) - 2) / 4 = 87,单考虑内存的话,可以支持87个executor。
2.2 CPU:
部分资料上建议executor的核心数为4个。
((5 * 36) - 2) / 4 = 44 ,单考虑内存的话,可以支持44个executor。
2.3 汇总
两者取小值,假定最大executor个数为44个。
得出以下假定的集群最大资源分配:
--num-executors = 44
--executor-cores = 4
--executor-memory = 4G
总资源消耗:
总内存:44 * 4 = 176G
总CPU:44 * 4 = 176
总task:44 * 4 * 2 = 352(官方建议每个cpu运行2-3个task)
3、总结
以上是个人计算出的最大资源分配。但是在实际使用过程中,并不需要这么高的并行度,比如一些简单的etl任务,如果最后一个stage的并行度过高,会生成大量小文件,这是不希望看到的。
因此,我选择根据实际的并行度设计的情况下,保持executor的cpu和内存数不变,酌情减少executor个数。