Group by + Limit 的效率优化

本文介绍了在处理大数据清洗时遇到的SQL查询超时问题,主要围绕GROUP BY与LIMIT的优化展开。通过分析GROUP BY的执行规则,避免临时表的生成,以及调整SQL结构和创建组合索引,最终将查询时间从20s降低到1.5s,显著提升了查询效率。
摘要由CSDN通过智能技术生成
背景

最近接手一个项目,清洗历史表中的数据,在原有表中添加一个新的字段,并根据user_id进行分组,查询到证件号、证件类型后,换取唯一编码,将唯一编码存入历史数据中,以达到未来替换user_id的效果。
清洗数据的大体思路,将数据库中带清洗数据分10段,每段交给一条线程负责处理,项目启动后,出现一个问题,查询数据库中的数据出现 timeOut排查发现是因为 limit m,n 中的m太大,导致数据库扫描的数据块很大,所以出现超时。

优化过程
未优化前
  • 未优化前的SQL
SELECT user_id,id_card,paper_type FROM company_user WHERE person_code = '' GROUP BY user_id LIMIT 500000,100;
  • 执行时常 20s 以上,这是难以接受的
开始优化
  • 查找了网上一些博客分析GROUP BY 与临时表的关系 :
      1. 如果GROUP BY 的列没有索引,产生临时表.
      2. 如果GROUP BY时,SELECT的列不止GROUP BY列一个,并且GROUP BY的列不是主键 ,产生临时表.
      3. 如果GROUP BY的列有索引,ORDER BY的列没索引.产生临时表.
      4. 如果GROUP BY的列和ORDER BY的列不一样,即使都有索引也会产生临时表.
      5. 如果GROUP BY或ORDER BY的列不是来自JOIN语句第一
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值