最近在申请资源时,遇到资源申请和预期不匹配
一、现象
资源申请如下(动态内存申请):
任务提交最大运行内存如下:
预期
container: 10 + 1 = 11
cpu : 102 +1 = 21
memory: 10( 4 * 1024)+ 512 = 41,472
内存和实际有较大差距
二、分析
1、yarn和spark的一些概念
a、spark任务会根据自己的executors的个数向yarn申请对应个数的container来跑任务,每个executor相当于一个JVM进程。
b、当--deploy-mode cluster
即driver运行在集群上时,除了跑任务的container,yarn会额外给每一个spark任务分配一个container用来跑ApplicationMaster进程,整个进程用来调控spark任务。对于spark任务,ApplicationMaster内存大小由上面的spark.driver.memory控制
2、spark
spark on yarn有一个memoryOverhead的概念,是为了防止内存溢出额外设置的一个值,可以用spark.yarn.executor.memoryOverhead参数手动设置,如果没有设置,默认memoryOverhead的大小由以下公式计算:
memoryOverhead = max(spark.executor.memory * 0.07,384)
3、规整化因子介绍
为了易于管理资源和调度资源,Hadoop YARN内置了资源规整化算法,它规定了最小可申请资源量、最大可申请资源量和资源规整化因子,如果应用程序申请的资源量小于最小可申请资源量,则YARN会将其大小改为最小可申请量。
比如,在yarn-site.xml中设置,相关参数如下:
yarn.scheduler.minimum-allocation-mb:最小可申请内存量,默认是1024
4、实际的计算
a、memoryOverhead计算
memoryOverhead = max(spark.executor.memory * 0.07,384)=max(4096*0.07,384)=max(286.72,384)=384
b、单个container内存申请计算
每个executor的container:4 * 1024 + 384 =》最小申请1024,即 4 * 1024 + 1024
driver的container:512 + 384 =》最小申请1024,即 1024
c、资源计算
container: 10 + 1 = 11
cpu : 102 +1 = 21
memory: 10( 4 * 1024 + 1024)+ 1024 = 52,224
正好是申请资源
三、解决
申请内存是cpu个数的2倍
container: 10 + 1 = 11
cpu : 102 +1 = 21
memory: 10( 3 * 1024 + 1024)+ 1024 = 41,984