Group by + Limit 的效率优化

最新推荐文章于 2025-04-02 22:04:36 发布

Coder 之路

最新推荐文章于 2025-04-02 22:04:36 发布

阅读量8.2k

点赞数 3

分类专栏： MySQL 文章标签： group by limit 优化 mysql sql 优化

本文链接：https://blog.csdn.net/shehuinidaye/article/details/89480780

版权

本文介绍了在处理大数据清洗时遇到的SQL查询超时问题，主要围绕GROUP BY与LIMIT的优化展开。通过分析GROUP BY的执行规则，避免临时表的生成，以及调整SQL结构和创建组合索引，最终将查询时间从20s降低到1.5s，显著提升了查询效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

最近接手一个项目，清洗历史表中的数据，在原有表中添加一个新的字段，并根据user_id进行分组，查询到证件号、证件类型后，换取唯一编码，将唯一编码存入历史数据中，以达到未来替换user_id的效果。
清洗数据的大体思路，将数据库中带清洗数据分10段，每段交给一条线程负责处理，项目启动后，出现一个问题，查询数据库中的数据出现 timeOut，排查发现是因为 limit m,n 中的m太大，导致数据库扫描的数据块很大，所以出现超时。

优化过程

未优化前

未优化前的SQL

SELECT user_id,id_card,paper_type FROM company_user WHERE person_code = '' GROUP BY user_id LIMIT 500000,100;

执行时常 20s 以上，这是难以接受的

开始优化

查找了网上一些博客分析GROUP BY 与临时表的关系 :
　　1. 如果GROUP BY 的列没有索引,产生临时表.
　　2. 如果GROUP BY时,SELECT的列不止GROUP BY列一个,并且GROUP BY的列不是主键 ,产生临时表.
　　3. 如果GROUP BY的列有索引,ORDER BY的列没索引.产生临时表.
　　4. 如果GROUP BY的列和ORDER BY的列不一样,即使都有索引也会产生临时表.
　　5. 如果GROUP BY或ORDER BY的列不是来自JOIN语句第一

最低0.47元/天解锁文章