spark on yarn申请资源的计算方法

最近在申请资源时,遇到资源申请和预期不匹配

一、现象

资源申请如下(动态内存申请):
在这里插入图片描述
任务提交最大运行内存如下:
在这里插入图片描述

预期
container: 10 + 1 = 11
cpu : 102 +1 = 21
memory: 10
( 4 * 1024)+ 512 = 41,472

内存和实际有较大差距

二、分析

1、yarn和spark的一些概念

a、spark任务会根据自己的executors的个数向yarn申请对应个数的container来跑任务,每个executor相当于一个JVM进程。
b、当--deploy-mode cluster即driver运行在集群上时,除了跑任务的container,yarn会额外给每一个spark任务分配一个container用来跑ApplicationMaster进程,整个进程用来调控spark任务。对于spark任务,ApplicationMaster内存大小由上面的spark.driver.memory控制

2、spark

spark on yarn有一个memoryOverhead的概念,是为了防止内存溢出额外设置的一个值,可以用spark.yarn.executor.memoryOverhead参数手动设置,如果没有设置,默认memoryOverhead的大小由以下公式计算:
memoryOverhead = max(spark.executor.memory * 0.07,384)

3、规整化因子介绍

为了易于管理资源和调度资源,Hadoop YARN内置了资源规整化算法,它规定了最小可申请资源量、最大可申请资源量和资源规整化因子,如果应用程序申请的资源量小于最小可申请资源量,则YARN会将其大小改为最小可申请量。
比如,在yarn-site.xml中设置,相关参数如下:
yarn.scheduler.minimum-allocation-mb:最小可申请内存量,默认是1024

4、实际的计算

a、memoryOverhead计算
memoryOverhead = max(spark.executor.memory * 0.07,384)=max(4096*0.07,384)=max(286.72,384)=384

b、单个container内存申请计算
每个executor的container:4 * 1024 + 384 =》最小申请1024,即 4 * 1024 + 1024
driver的container:512 + 384 =》最小申请1024,即 1024

c、资源计算
container: 10 + 1 = 11
cpu : 102 +1 = 21
memory: 10
( 4 * 1024 + 1024)+ 1024 = 52,224
正好是申请资源

三、解决

申请内存是cpu个数的2倍
container: 10 + 1 = 11
cpu : 102 +1 = 21
memory: 10
( 3 * 1024 + 1024)+ 1024 = 41,984
在这里插入图片描述

在这里插入图片描述

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值