Spark Core源码精读计划#23：与存储相关的内存池及内存管理器的具体实现-CSDN博客

本文链接：https://blog.csdn.net/lvlei19911108/article/details/118331037

前言

我们用两篇文章的时间搞清楚了Spark存储中的“块”到底是怎么一回事，接下来我们就可以放心来看Spark Core存储子系统的细节了。前面已经提到过，Spark会同时利用内存和外存，尤其是积极地利用内存作为存储媒介。这点与传统分布式计算框架(如Hadoop MapReduce)的“内存仅用于计算，外存仅用于存储”的方式是非常不同的，同时也是Spark高效设计哲学的体现。接下来一段时间内，我们先研究Spark存储中的内存部分，再研究磁盘(外存)部分。

虽然BlockManager是Spark存储子系统的司令官，但它并不会直接管理块，而会将对内存和外存的管理分别组织起来。与内存存储相关的组件包括内存池MemoryPool、内存管理器MemoryManager、内存存储器MemoryStore。本文先来探索内存池和内存管理器的大体实现。

内存池MemoryPool

MemoryPool抽象类从逻辑上非常松散地定义了Spark内存池的一些基本约定，其完整源码如下。

代码#23.1 - o.a.s.memory.MemoryPool抽象类

private[memory] abstract class MemoryPool(lock: Object) {
  @GuardedBy("lock")
  private[this] var _poolSize: Long = 0

  final def poolSize: Long = lock.synchronized {
    _poolSize
  }

  final def memoryFree: Long = lock.synchronized {
    _poolSize - memoryUsed
  }

  final def incrementPoolSize(delta: Long): Unit = lock.synchronized {
    require(delta >= 0)
    _poolSize += delta
  }

  final def decrementPoolSize(delta: Long): Unit = lock.synchronized {
    require(delta >= 0)
    require(delta <= _poolSize)
    require(_poolSize - delta >= memoryUsed)
    _poolSize -= delta
  }

  def memoryUsed: Long
}

在构造MemoryPool时，需要传入一个锁对象lock用于线程同步，该lock实际上就是后面会讲到的内存管理器MemoryManager。MemoryPool中定义了以下方法。

poolSize：获得内存池的大小，单位为字节。
memoryUsed：获得内存池中已占用内存的大小。该方法未提供具体实现，需要子类实现。
memoryFree：获得内存池中空闲内存的大小，就是上述poolSize减去memoryUsed。
incrementPoolSize()：扩展内存池delta个字节的大小。该方法不能被覆写。
decrementPoolSize()：压缩内存池delta个字节的大小。注意已占用的内存不能被压缩掉，并且该方法也不能被覆写。

以上所有方法(以及其实现类的大部分方法)都由MemoryManager保证线程安全性，防止多线程同时操作内存池，造成分配混乱。

MemoryPool有两个实现类：StorageMemoryPool与ExecutionMemoryPool。顾名思义，StorageMemoryPool用于存储，比如RDD数据、广播变量数据的缓存与分发；ExecutionMemoryPool用于执行，这包含Spark的计算(连接、聚合、排序等等)和Shuffle过程。ExecutionMemoryPool严格上来讲不属于存储子系统的组成部分，因此本文先来看StorageMemoryPool。