spark堆外内存的设置

最新推荐文章于 2024-04-13 14:20:04 发布

jxx4903049

最新推荐文章于 2024-04-13 14:20:04 发布

阅读量4.4k

点赞数

分类专栏： spark 文章标签： spark 堆外内存 JVM

本文链接：https://blog.csdn.net/jxx4903049/article/details/79197428

版权

spark 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

MemoryOverhead是JVM进程中除Java堆以外占用的空间大小，包括方法区（永久代）、Java虚拟机栈、本地方法栈、JVM进程本身所用的内存、直接内存（Direct Memory）等。通过spark.yarn.executor.memoryOverhead设置，单位MB。

相关源码：

[java]view plain copy 
    
 //yarn/common/src/main/scala/org/apache/spark/deploy/yarn/YarnSparkHadoopUtil.scala  
   val MEMORY_OVERHEAD_FACTOR = 0.07  
   val MEMORY_OVERHEAD_MIN = 384  
   
 //yarn/common/src/main/scala/org/apache/spark/deploy/yarn/YarnAllocator.scala  
   protected val memoryOverhead: Int = sparkConf.getInt("spark.yarn.executor.memoryOverhead",  
     math.max((MEMORY_OVERHEAD_FACTOR * executorMemory).toInt, MEMORY_OVERHEAD_MIN))  
 ......  
       val totalExecutorMemory = executorMemory + memoryOverhead  
       numPendingAllocate.addAndGet(missing)  
       logInfo(s"Will allocate $missing executor containers, each with $totalExecutorMemory MB " +  
         s"memory including $memoryOverhead MB overhead")  

三、相关问题

如果用于存储RDD的空间不足，先存储的RDD的分区会被后存储的覆盖。当需要使用丢失分区的数据时，丢失的数据会被重新计算

如果Java堆或者永久代的内存不足，则会产生各种OOM异常，executor会被结束。spark会重新申请一个container运行executor。失败executor上的任务和存储的数据会在其他executor上重新计算。

如果实际运行过程中ExecutorMemory+MemoryOverhead之和（JVM进程总内存）超过container的容量。YARN会直接杀死container。executor日志中不会有异常记录。spark同样会重新申请container运行executor。

在Java堆以外的JVM进程内存占用较多的情况下，应该将MemoryOverhead设置为一个足够大的值，应该将MemoryOverhead设置为一个足够大的值，以防JVM进程因实际占用的内存超标而被kill。如果默认值（math.max((MEMORY_OVERHEAD_FACTOR *executorMemory).toInt,MEMORY_OVERHEAD_MIN）不够大，可以通过spark.yarn.executor.memoryOverhead手动设置一个更大的值。

jxx4903049

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
spark堆外内存的设置

MemoryOverhead是JVM进程中除Java堆以外占用的空间大小，包括方法区（永久代）、Java虚拟机栈、本地方法栈、JVM进程本身所用的内存、直接内存（Direct Memory）等。通过spark.yarn.executor.memoryOverhead设置，单位MB。相关源码：[java] view plain copy
复制链接

扫一扫