Spark on Yarn中的Executor内存设置

最新推荐文章于 2024-09-20 17:16:59 发布

IT_心如止水

最新推荐文章于 2024-09-20 17:16:59 发布

阅读量1.3k

点赞数 1

分类专栏：数据仓库文章标签： spark 大数据 yarn

本文链接：https://blog.csdn.net/qq_36893938/article/details/124761506

版权

本文介绍了Spark在Yarn上的运行模式，重点解析了Executor内存设置，包括`spark.executor.memory`和`spark.executor.memoryOverhead`参数，以及它们如何影响Executor的JVM堆内外存分配。同时，提到了Yarn的Container内存限制和计算内存的分配策略。

摘要由CSDN通过智能技术生成

背景介绍

Yarn

yarn是一个主从型的计算资源管理系统，包含一个ResourceManager和多个NodeManager。其中ResourceManager负责整个集群的资源调度，管理NodeManager；NodeManager负责管理单个节点。

Spark

Spark是一种分布式计算框架，可以在多种集群资源管理器上运行。Spark计算任务运行时，会首先运行一个driver，相当于计算任务的main函数。它负责计算任务的调度，driver会管理多个executor，executor上会运行具体的计算任务。

Spark on Yarn

Spark on yarn 模式有两种， yarn-client, yarn-cluster, 其中yarn-client适合测试环境， yarn-cluster适合生产环境。

Executor内存设置

Spark的executor运行在单独的JVM中。spark.executor.memory这个参量设置的就是JVM的堆内存，也是executor实际可以使用的内存。JVM本身也需要一定的内存，这部分内存的大小通过spark.executor.memoryOverhead设置。这两部分的和就是向Yarn申请的Container内存大小。spark.executor.memory
该参数用于设置每个Executor进程