Spark[三]——Spark对内存的管理[On-Heap Memory、Off-Heap Memory、Storage、Execution、Other]
由于Driver的内存管理较为简单,内存管理主要对Executor的内存管理进行探讨。
一、堆内(On-Heap Memory)和堆外(Off-Heap Memory)内存规划
Executor作为一个JVM进程,Executor的内存管理建立在JVM的内存管理之上。Spark对堆内内存进行JVM内存管理,引入了堆外内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化了内存的使用;其中,堆外内存直接向操作系统申请。
二、堆内内存(On-Heap Memory)
堆内内存概述:
在Spark程序启动时,堆内内存的大小由spark-submit中的–executor-memory 或 spark.executor.memory参数配置。Spark对于堆内内存的管理是一种逻辑上的“规划式”管理,因为对象实例占用内存的申请和释放都由JVM完成,Spark只能在申请后和释放前记录这些内存。
对于Spark的序列化对象,由于是字节流的形式,其占用的内存大小可以直接计算,