Spark 内存管理模型

在工作中有时候我们可能会遇到Spark内存溢出问题,因此有必要了解一下Spark是如何进行内存管理的。在Spark 1.6.0以后的版本中,内存管理模型如下:
在这里插入图片描述
这里面可以看到三个核心组成部分:
1.Reserved memory
这是系统保留的内存,其大小是固定的,对于Spark1.6.0 来说其大小为300M, 意味着300M RAM不参与Spark内存空间计算。
2.User memory
这一部分是分配完Spark memory后剩余的部分。这部分可以用来存储用在RDD transformation过程的数据结构。在Spark 1.6.0中,这一部分大小可以用(“Java Heap” – “Reserved Memory”) * (1.0 – spark.memory.fraction)来计算,默认是(“Java Heap” – 300MB) * 0.25。
3.Spark memory
这是Apache Spark管理的内存池,其大小可以用(“Java Heap” – “Reserved Memory”) * spark.memory.fraction来计算,在Spark 1.6.0中默认是(“Java Heap” – 300MB) * 0.75
。这一部分可以分为两个区间:Storage memory和Execution memory, 他们的大小是通过 spark.memory.storageFraction参数来设置的,默认是0.5,值得注意的是这一比例并不是静止不变的。

Storage memory:主要用来存储Spark的缓存数据,如RDD缓存,broadcast变量
Execution memory:主要用来存储shuffle,join, sort,aggregation计算过程的临时数据。比如可以用来存储map side的shuffle的中间结果,也可以用来存储hash aggregation的hash table。

Reference:https://0x0fff.com/spark-memory-management/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值