spark sql官网优化指南

SunnyRivers

已于 2024-12-23 14:27:56 修改

阅读量937

点赞数

分类专栏： Spark最佳实战与性能优化 SparkSQL权威指南文章标签： sparksql 性能优化官网

于 2024-02-18 11:09:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Android_xue/article/details/136069528

版权

Spark最佳实战与性能优化同时被 2 个专栏收录

38 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

SparkSQL权威指南

15 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Spark SQL的性能优化策略，包括缓存数据以提高查询速度，调整内存相关参数如列式存储和压缩，以及设置如spark.sql.shuffle.partitions等关键参数来优化洗牌操作。此外，还讲解了Join的hints策略、重分区和自适应查询执行（AQE）的使用，旨在帮助用户充分利用Spark SQL进行高效的数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

两句话概括

缓存数据
调整参数

缓存数据

把数据缓存到内存，spark sql能够只扫描需要列并且会自动压缩数据，占用最小的内存和减小GC压力。这无需多言，内存远远要快于磁盘，spark效率比hive高这个就是一个主要原因。

缓存数据代码

spark.catalog.cacheTable("tableName")
或
dataFrame.cache()

释放缓存

spark.catalog.uncacheTable("tableName")
或
dataFrame.unpersist()

用完后一定要记得释放掉，不要空占的内存浪费资源。

内存相关参数
spark sql可以使用SparkSession的setConf方法，或者使用sql命令 set key=value的方法来配置内存中的缓存。主要的配置参数有两个：

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SunnyRivers 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。