【Spark系列】：Spark的内存模型

最新推荐文章于 2024-08-11 21:06:35 发布

hxcaifly

最新推荐文章于 2024-08-11 21:06:35 发布

阅读量5.9k

点赞数 11

分类专栏： Spark

本文链接：https://blog.csdn.net/hxcaifly/article/details/85855446

版权

本文深入探讨Spark的内存模型，包括堆内内存（Execution和Storage内存，以及User Memory和Reserved Memory）和堆外内存的使用。讨论了Spark如何动态调整Execution和Storage内存，以及何时会申请堆外内存。文中还通过具体示例解释了内存分配和Task之间的内存分布，并提及了堆外内存启用时的内存计算。

摘要由CSDN通过智能技术生成

1. 前言

我们都知道 Spark 能够有效的利用内存并进行分布式计算，其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark，深入地理解其内存管理模型具有非常重要的意义，这有助于我们对 Spark 进行更好的调优；在出现各种内存问题时，能够摸清头脑，找到哪块内存区域出现问题。下文介绍的内存模型全部指 Executor 端的内存模型， Driver 端的内存模型本文不做介绍。统一内存管理模块包括了堆内内存(On-heap Memory)和堆外内存(Off-heap Memory)两大区域，下面对这两块区域进行详细的说明。

下面的分析全部是基于 Apache Spark 2.2.1 进行的。

2. 堆内内存(On-heap Memory)

默认情况下，Spark 仅仅使用了堆内内存。Executor 端的堆内内存区域大致可以分为以下四大块：

Execution 内存：主要用于存放 Shuffle、Join、Sort、Aggregation 等计算过程中的临时数据
Storage 内存：主要用于存储 spark 的 cache 数据，例如RDD的缓存、unroll数据；
用户内存（User Memory）：主要用于存储 RDD 转换操作所需要的数据，例如 RDD 依赖等信息。
预留内存（Reserved Memory）：系统预留内存，会用来存储Spark内部对象。

在这里插入图片描述

我们对上图进行以下说明：

systemMemory = Runtime.getRuntime.maxMemory，其实就是通过参数spark.executor.memory 或 --executor-memory 配置的。
reservedMemory 在 Spark 2.2.1 中是写死的，其值等于300MB，这个值是不能修改的（如果在测试环境下，我们可以通过 spark.testing.reservedMemory 参数进行修改）；
usableMemory = systemMemory - reservedMemory，这个就是 Spark可用内存；

3. 堆外内存(Off-heap Memory)

Spark 1.6 开始引入了Off-heap memory。这种模式不在 JVM 内申请内存，而是调用 Java 的 unsafe 相关 API 进行诸如 C 语言里面的 malloc() 直接向操作系统申请内存，由于这种方式不进过 JVM 内存管理，所以可以避免频繁的 GC，这种内存申请的缺点是必须自己编写内存申请和释放的逻辑。

堆外内存在Spark中可以从逻辑上分成两种: 一种是DirectMemory, 一种是JVM Overhead(下面统称为off heap)。默认情况下，堆外内存是关闭的，我们可以通过 spark.memory.offHeap.enabled 参数启用，并且通过 spark.memory.offHeap.size 设置堆外内存大小，单位为字节。如果堆外内存被启用，那么 Executor 内将同时存在堆内和堆外内存，两者的使用互补影响，这个时候 Executor 中的 Execution 内存是堆内的 Execution 内存和堆外的 Execution 内存之和，同理，Storage 内存也一样。相比堆内内存，堆外内存只区分 Executio