Spark中Executor的内存分为三块主要部分

YGFive

于 2023-10-14 13:43:39 发布

阅读量243

点赞数

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/YiGeFive/article/details/133824430

版权

用于任务执行（Execution Memory）：这部分内存用于执行任务时使用的数据和对象。默认情况下，Spark将20%的Executor内存用于任务执行。在任务执行期间，包括代码的解析、计算过程中产生的中间结果以及函数调用栈等都会占用这部分内存。
用于shuffle过程（Storage Memory）：这部分内存用于缓存通过shuffle操作从上一个阶段（stage）拉取的数据，以及进行聚合、排序等计算过程中需要用到的数据。默认情况下，Spark将20%的Executor内存用于shuffle过程。这些数据通常会在内存中进行临时存储，以便进行后续的计算操作。
用于RDD持久化（Off-Heap Memory）：这部分内存用于持久化RDD数据，即将RDD数据写入磁盘或外部存储系统（如内存、磁盘、外部数据库等）。默认情况下，Spark将60%的Executor内存用于RDD持久化。这样可以保证在执行计算过程中有足够的内存空间用于存储持久化的数据。

需要注意的是，这些内存分区的比例是可以通过Spark的配置参数进行调整的。可以根据具体的应用场景和资源需求来调整内存分配的比例，以优化任务执行的性能和资源利用。

此外，还有一部分内存用于Executor自身的管理和运行。例如，用于存储线程堆栈、JVM运行时数据结构等。这部分内存通常由Spark自动管理，不需要用户进行配置和调整。

总结来说，Executor的内存主要分为任务执行内存、shuffle过程内存和RDD持久化内存。根据默认配置，任务执行和shuffle过程各占用Executor内存的20%，而RDD持久化占用60%。这样的内存划分可以满足任务执行、数据交换和数据持久化的需求。

关注