spark性能优化----缓存清除

最新推荐文章于 2024-08-16 10:02:14 发布

sunkl_

最新推荐文章于 2024-08-16 10:02:14 发布

阅读量1.1w

点赞数 2

分类专栏：大数据文章标签： spark cache persist 清除调优

本文链接：https://blog.csdn.net/u010990043/article/details/79175440

版权

Spark作为大数据主流计算引擎，其性能优化中缓存管理至关重要。通过cache和persist进行中间结果缓存以避免重复计算，但何时释放缓存是个关键问题。通常在shuffle或数据序列化后可释放，或在不再需要时使用unpersist。然而，忘记清理缓存或在某些框架内可能导致无法释放，内存不足时LRU策略会自动移除部分缓存，影响性能。开发者可通过sc.getPersistentRDDs找到所有缓存的RDD，手动进行优化。

摘要由CSDN通过智能技术生成

spark是一款优秀的框架，计算性能相当优异，已经发展成大数据主流计算引擎，在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果，避免重复计算。其中cache是persist的一个特列（cache相当于persist()）。persist拥以下几个级别的缓存：

NONE  默认配置（不缓存）
DISK_ONLY  数据缓存到磁盘,特点读写特别慢，内存占用比较少
DISK_ONLY_2 数据缓存到磁盘两份，特点读写比较慢（比DISK_ONLY读写快，稳定性好）
MEMORY_ONLY 数据缓存到内存和cache()功能之一，读写最快但是内存消耗比较大
MEMORY_ONLY_2 数据缓