postgresql分组聚合查询性能优化

最新推荐文章于 2023-07-31 11:42:14 发布

guangmingguangming

最新推荐文章于 2023-07-31 11:42:14 发布

阅读量5.9k

点赞数 1

本文链接：https://blog.csdn.net/guangmingguangming/article/details/105160593

版权

数据库专栏收录该内容

1 篇文章 0 订阅

订阅专栏

利用项目空闲期对在做项目进行性能排查、优化。项目数据库采用postgresql。发现一个4万行数据的表进行简单的分组聚合查询花了2秒半左右时间。以下记录自己的优化过程。

查询sql举例：select count(distinct t1.a),t1.b from t1 group by t1.b

索引排查：数据库查询性能最直接的影响当然就是索引，但这里没有where条件过滤，group by字段又不能利用索引。
数据库服务端配置优化，具体可以查询相关文档，主要有shared_buffers work_mem等配置参数会影响查询性能。调优后发现耗时有减少，但任然在2秒左右。
并行查询：开启并行查询，发现执行计划任然走的是常规顺序扫描方式。强制开启并行模式，发现查询耗时反而增加了。怀疑数据量过少，不能利用并行查询的优势。并行查询需要创建额外进程，并且进程间还需要协调操作，不难想象耗时为什么会增加。
聚合方式：查看执行计划，发行采用的是GroupAggregate 聚合方式。搜索相关文章发现还有另外一种聚合方式HashAggregate并且小数据量性能更好，其中一篇文章详细介绍了两种方式的原理和优缺点。并且正好提到了count(distinct t1.a)这种方式数据库不能走HashAggregate，以及如何绕过的方式。修改sql为：select count(tmp.a),tmp.b from (select t1.a as a,t1.b as b from t1 group by t1.b,t1.a) tmp gruop by tmp.b 耗时下降到600毫秒左右，还是比较明显的。附文章地址：https://www.slideshare.net/AlexeyBashtanov/pgday-uk-2016-performace-for-queries-with-grouping?from_action=save ，我也下载了一份，需要可以直接下载，https://download.csdn.net/download/guangmingguangming/12277562
如果要进一步提升性能估摸着只能做提前统计。