Spark 内存管理

猫猫姐

已于 2024-07-31 09:55:09 修改

阅读量173

点赞数 8

分类专栏： Spark实战文章标签： spark 大数据分布式

于 2024-07-30 21:17:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84052244/article/details/140806978

版权

Spark 内存管理

相比其他大数据计算引擎，关于 Spark 的特性与优势，想必你听到最多的字眼，就是“内存计算”。合理而又充分地利用内存资源，是 Spark 的核心竞争力之一。因此，作为开发者，我们弄清楚 Spark 是如何使用内存的，就变得非常重要。

Spark 内存区域划分

对于任意一个 Executor 来说，Spark 会把内存分为 4 个区域，分别是 Reserved Memory、User Memory、Execution Memory 和 Storage Memory。

Reserved Memory 固定为 300MB，不受开发者控制，它是 Spark 预留的、用来存储各种 Spark 内部对象的内存区域
User Memory 用于存储开发者自定义的数据结构，例如 RDD 算子中引用的数组、列表、映射等等。
Execution Memory 用来执行分布式任务。分布式任务的计算，主要包括数据的转换、过滤、映射、排序、聚合、归并等环节，而这些计算环节的内存消耗，统统来自于 Execution Memory。
Storage Memory 用于缓存分布式数据集，比如 RDD Cache、广播变量等等。

不难发现，Execution Memory 和 Storage Memory 这两块内存区域，对于 Spark 作业的执行性能起着举足轻重的作用。因此，在所有的内存区域中，Execution Memory 和 Storage Memory 是最重要的，也是开发者最需要关注的。

在 Spark 1.6 版本之前，Execution Memory 和 Storage Memory 的空间划分是静态的，一旦空间划分完毕，不同内存区域的用途与尺寸就固定了。也就是说，即便你没有缓存任何 RDD 或是广播变量，Storage Memory 区域的空闲内存也不能用来执行映射、排序或聚合等计算任务，宝贵的内存资源就这么白白地浪费掉了。

考虑到静态内存划分的弊端，在 1.6 版本之后，Spark 推出了统一内存管理模式，在这种模式下，Execution Memory 和 Storage M

最低0.47元/天解锁文章

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark 内存管理

具体来说，Spark 把 Executor 内存划分为 4 个区域，分别是 Reserved Memory、User Memory、Execution Memory 和 Storage Memory。spark. executor. memory 指定了 Executor 进程的 JVM Heap 总大小，而不是Executor的物理内存大小相比cache 方法 persist 更具备普适性，你可以通过指定存储级别来灵活地选择 Cache 的存储介质、存储形式以及副本数量，从而满足不同的业务需要。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。