spark on yarn申请资源的计算方法

最新推荐文章于 2024-07-29 07:00:00 发布

迷途无归

最新推荐文章于 2024-07-29 07:00:00 发布

阅读量1.3k

点赞数 2

分类专栏： tools 文章标签： spark

本文链接：https://blog.csdn.net/qq_27297393/article/details/112579858

版权

tools 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

最近在申请资源时，遇到资源申请和预期不匹配

一、现象

资源申请如下（动态内存申请）：
在这里插入图片描述
任务提交最大运行内存如下：

预期
container: 10 + 1 = 11
cpu : 102 +1 = 21
memory: 10( 4 * 1024)+ 512 = 41,472

内存和实际有较大差距

二、分析

1、yarn和spark的一些概念

a、spark任务会根据自己的executors的个数向yarn申请对应个数的container来跑任务，每个executor相当于一个JVM进程。
b、当--deploy-mode cluster即driver运行在集群上时，除了跑任务的container，yarn会额外给每一个spark任务分配一个container用来跑ApplicationMaster进程，整个进程用来调控spark任务。对于spark任务，ApplicationMaster内存大小由上面的spark.driver.memory控制

2、spark

spark on yarn有一个memoryOverhead的概念，是为了防止内存溢出额外设置的一个值，可以用spark.yarn.executor.memoryOverhead参数手动设置，如果没有设置，默认memoryOverhead的大小由以下公式计算：
memoryOverhead = max(spark.executor.memory * 0.07,384)

3、规整化因子介绍

为了易于管理资源和调度资源，Hadoop YARN内置了资源规整化算法，它规定了最小可申请资源量、最大可申请资源量和资源规整化因子，如果应用程序申请的资源量小于最小可申请资源量，则YARN会将其大小改为最小可申请量。
比如，在yarn-site.xml中设置，相关参数如下：
yarn.scheduler.minimum-allocation-mb：最小可申请内存量，默认是1024