Spark中executor-memory参数详解

最新推荐文章于 2023-06-27 15:59:10 发布

wisgood

最新推荐文章于 2023-06-27 15:59:10 发布

阅读量3.1w

点赞数 4

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wisgood/article/details/77857039

版权

spark 专栏收录该内容

65 篇文章 0 订阅

订阅专栏

我们知道，spark执行的时候，可以通过 --executor-memory 来设置executor执行时所需的memory。但如果设置的过大，程序是会报错的，如下
这里写图片描述

那么这个值最大能设置多少呢？本文来分析一下。
文中安装的是Spark1.6.1，安装在hadoop2.7上。

1、相关的2个参数

1.1 yarn.scheduler.maximum-allocation-mb

这个参数表示每个container能够申请到的最大内存，一般是集群统一配置。Spark中的executor进程是跑在container中，所以container的最大内存会直接影响到executor的最大可用内存。当你设置一个比较大的内存时，日志中会报错，同时会打印这个参数的值。如下图，6144MB，即6G。
这里写图片描述

1.2 spark.yarn.executor.memoryOverhead

executor执行的时候，用的内存可能会超过executor-memoy，所以会为executor额外预留一部分内存。spark.yarn.executor.memoryOverhead代表了这部分内存。这个参数如果没有设置，会有一个自动计算公式(位于ClientArguments.scala中)，代码如下：
这里写图片描述

其中，MEMORY_OVERHEAD_FACTOR默认为0.1，executorMemory为设置的executor-memory, MEMORY_OVERHEAD_MIN默认为384m。参数MEMORY_OVERHEAD_FACTOR和MEMORY_OVERHEAD_MIN一般不能直接修改，是Spark代码中直接写死的。

2、executor-memory计算

计算公式：

  val executorMem = args.executorMemory + executorMemoryOverhead

假设executor-为X（整数，单位为M），即
1）如果没有设置spark.yarn.executor.memoryOverhead,

executorMem= X+max(X*0.1,384)

2）如果设置了spark.yarn.executor.memoryOverhead（整数，单位是M）

executorMem=X +spark.yarn.executor.memoryOverhead

需要满足的条件：

executorMem< yarn.scheduler.maximum-allocation-mb

注意：以上代码位于Client.scala中。
本例中 :

6144=X+max(X*0.1,384) 
X=5585.45

向上取整为5586M，即最大能设置5586M内存。

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
3
评论
Spark中executor-memory参数详解

Spark中executor-memory参数详解
复制链接

扫一扫

专栏目录

wisgood

CSDN认证博客专家 CSDN认证企业博客

码龄13年

166: 原创

2万+: 周排名

147万+: 总排名

278万+: 访问

: 等级

2万+: 积分

1205: 粉丝

518: 获赞

188: 评论

1166: 收藏

私信

关注

热门文章

分类专栏

Flink 1篇
Hadoop从入门到放弃 7篇
开源社区贡献 2篇
MapReduce 69篇
Hive 93篇
spark 65篇
Java 102篇
Yarn 5篇
Linux 84篇
数据仓库 8篇
大数据运维 6篇
Hbase 4篇
算法 22篇
Pig 3篇
mysql 10篇
tez 3篇
docker 1篇
HDFS 7篇
编程工具 8篇
scala 9篇
kafka 15篇

最新评论

多年大数据开发经验总结
菜码代码: 现在呢，都没什么公司用了
flink回撤流分析
CSDN-Ada助手: 非常感谢您分享关于flink回撤流分析的博客，这篇文章对于正在学习和使用flink的开发者来说非常有帮助。我觉得下一篇博客可以继续探讨flink的流处理能力，在实际场景中如何应用flink实现数据处理和分析，建议您可以写一篇关于“flink实时数据处理的最佳实践”或“flink在大数据分析中的应用”等主题，相信会有更多读者受益。期待您的下一篇分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
hive中join导致的数据倾斜问题排查
wennwennn: 可能其他大key分到其他reduce,大家都慢,就不倾斜了
hive 使用lzo遇到的一个奇怪的问题
code学习社: 请问一下问题解决了，可以告知一下解决方法吗，感谢
如何确定Kafka的分区数、key和consumer线程数
打破砂锅问到底007: 谢谢分享。默认情况下， kafka 是根据 key 来分配消息到哪个 topic的分区的，这样就可以实现某一台消费者机器都是同一个 key的消息，也就是这个 key的消息只会到同一个机器上，这对想保证一定顺序性需求的同学是有帮助的

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。