一次对group by时间导致的慢查询的优化

13 篇文章 0 订阅

前言:

最近在测试环境中点击一个图表展示页面时,半天才得到后台响应的数据进行页面渲染展示,后台的响应很慢,这样极大的降低了用户的体验;
发现这个问题后马上进行了排查 ,通过排查发现是由一个查询很慢的  group by 语句导致的;

本文主线:

①、简单描述下排查步骤;

②、对 group by 查询慢进行优化;

简单描述下排查步骤:

排查主要分为了两个步骤:
  • 后台接口的监控,看看哪个方法调用时耗时多
  • 数据库开启慢查询日志,记录执行很慢的SQL

推荐使用阿里开源的Java线上诊断工具 Arthas ,使用其 trace 命令统计方法调用链路上各个方法节点的耗时;

Arthas 工具的具体使用方法可参考: 线上服务响应时间太长的排查心路 ;

通过使用Arthas工具统计到一个进行数据库的 group by查询 方法耗时很严重;

为了进一步确定是这个查询SQL 很耗时,将MySql 的慢查询日志开启了,然后再次调用后台这个接口,发现慢查询日志中确实存在了这个SQL语句;

SQL语句如下:

SELECT
    date_format(createts, '%Y') AS YEAR
FROM
    t_test_log
GROUP BY
    date_format(createts, '%Y')
ORDER BY
    createts DESC
这个SQL语句是用来统计表中所有数据被创建时的年份;
下面就来聊聊这个SQL为什么会比较慢,然后进行了怎样的优化;

对 group by 查询慢进行优化:

在优化group by查询的时候,一般会想到下面这两个名词,通过下面这两种索引扫描可以高效快速的完成group by操作:
  • 松散索引扫描(Loose Index Scan)
  • 紧凑索引扫描(Tight Index Scan)

group by操作在没有合适的索引可用时,通常先扫描整个表提取数据并创建一个临时表,然后按照group by指定的列进行排序;在这个临时表里面,对于每一个group 分组的数据行来说是连续在一起的。

完成排序之后,就可以得到所有的groups 分组,并可以执行聚集函数(aggregate function)。

可以看到,在没有使用索引的时候,需要创建临时表和排序;那在执行计划的 Extra 额外信息中通常就会看到这些信息 Using temporary; Using filesort 出现 。

1、首先查看下SQL的执行计划:

得到这个慢查询的SQL后,马上使用 explain 关键字分析其执行计划:

通过查看执行计划发现,这个SQL语句走的是 全表扫描 ,并且通过扫描了大概 99974 行记录后才得到最终的结果集,并且执行过程中使用到了临时表和文件辅助排序;

2、SQL执行计划内容简述:

查看执行计划时,主要看上图中花圈的那三项数据即可:

  • type:访问类型,这是sql查询优化中一个很重要的指标,结果值从好到坏依次是:

  • Rows:数据行,根据表统计信息及索引选用情况,大致估算出找到所需的记录所需要读取的行数;
  • Extra:额外信息,SQL执行时十分重要的额外信息,简单说几个常会出现的值:
  • Using filesort : 未利用到索引的默认排序,需要使用文件辅助进行排序,出现其说明SQL性能不好;
  • Using temporary:使用临时表保存中间结果,常见于 group by ,出现其说明SQL性能不好;
  • Using index: 说明可以直接在索引树上就能得到最终的值,避免了回表,出现其说明SQL性能很好;
  • Using index for group-by:表示使用了 松散索引扫描 ,出现其说明SQL性能很好;因为松散索引扫描只需要读取很少量的数据就可以完成group by操作,所以执行效率非常高;
  • select tables optimized away: 在没有group by子句的情况下,基于索引优化 MIN/MAX 聚合函数操作,不必等到执行阶段在进行计算,查询执行计划生成的阶段即可完成优化,出现其说明SQL性能达到最优,往往配合 type访问类型的system 出现;

3、建立索引后再查看执行计划:

上面通过查看执行计划得知,因为没有创建相应的索引,所以走的是全表扫描,性能最差;然后对 createts 字段创建索引;再查看其执行计划:

通过查看创建索引后的执行计划发现,此次查询走的 索引全扫描 ,此次虽然从全表扫描优化到了索引全扫描,但是还是需要通过扫描了大概 99974 行记录后才得到最终的结果集,性能并没有提升太多;

并且发现 Extra 信息中还是存在 Using temporary; Using filesort ,说明没有使用到 松散索引扫描或紧凑索引扫描 ;

然后再次分析下SQL语句:

SELECT
    date_format(createts, '%Y') AS YEAR
FROM
    t_test_log
GROUP BY
    date_format(createts, '%Y')
ORDER BY
    createts DESC

发现SQL中对索引字段 createts 做了 date_format 函数运算,所以才导致没使用上松散索引扫描或紧凑索引扫描;然后需要重写下SQL 。

4、通过改写SQL进行优化:

改写后的SQL如下:

SELECT
    date_format(createts, '%Y') AS years
FROM
    (
        SELECT
            createts
        FROM
            t_test_log
        GROUP BY
            createts
    ) t_test_log_1
GROUP BY
    date_format(createts, '%Y')
ORDER BY
    createts DESC

改写完SQL后重新执行,发现查询速度快了非常多,性能上有了质的飞跃;

然后又查看了下它的执行计划如下:

查看上面那个嵌套查询SQL语句的执行计划,子查询部分的通过扫描大概52行记录就能得到结果集,相比于一开始需要扫描 99974 行 记录才能得到结果集,这个性能快了太多了;并且子查询的 Extra 信息中出现了 Using index for group-by ,说明使用到了松散索引扫描,效率才提升了这么多;

外查询对子查询(52行记录)的结果集再次进行分组排序,此时采用的是全表(全结果集)的查询, 如果结果集很大的话,效率不会很高 ;

所以,在使用此优化方案的SQL语句时,需要统计下子查询的结果集的大小,如果子查询结果集很大的话,就不建议使用此方案了,可以尝试使用下面的这种优化方案;

5、通过 改写SQL + 改写代码 进行优化:

上面优化方案,只需改写SQL即可,无需对代码进行修改;本优化方案既要改写SQL,还要进行代码的修改;

改写后的SQL如下: 这个SQL是查询出表中最小年份和最大年份

(
    SELECT
        date_format(createts, '%Y') AS years
    FROM
        t_test_log
    ORDER BY
        createts
    LIMIT 1
)
UNION ALL
    (
        SELECT
            date_format(createts, '%Y') AS years
        FROM
            t_test_log
        ORDER BY
            createts DESC
        LIMIT 1
    )

查看下上面这个SQL语句的执行计划:

上面这个SQL是利用索引的默认排序,直接获取排序后的第一条记录,只需要扫描一行记录(rows :1)就能获取到最终的结果集;所以此SQL的性能是非常好的 。

但是需要记住,这个SQL查询出的结果集不是最终需要的数据,需要  写代码 计算出最终的结果集:
  • 得到的最大最小年份这两个值 一样:说明表中的数据都是属于一个年份的
  • 得到的最大最小年份这两个值不一样:
  • 两个值相减得一:说明年份是挨着的两个年份,可以直接将结果集返回;
  • 两个值相减大于一:说明最小年份和最大年份之间还存在年份,通过计算得出中间年份

但是注意,通过写代码计算出最终的年份,这种方式还是存在一个问题的,那就是确实表中根本没有中间年份的数据,但是通过计算却得出了;

举例说明:假如通过SQL查询出了最小年份和最大年份是2018和2021,那么再通过代码计算出中间年份2019和2020,但是表中数据根本就不存在2019年份的数据,这是就会出现问题了;

所以这种方案也需要根据自己具体的业务场景和实际的数据情况等分析是否需要采用 。

扩展:

在通过 改写SQL + 改写代码 进行优化时,改写的SQL不止上面那一种,还有一种查询效率也比较高的改写SQL;

就是使用 min、max 聚合函数进行改写SQL,但是在使用聚合函数时,可以写出下面两种样式的SQL,到底哪种改写SQL效率是比较高呢,留个悬念,大家可以自行去分析尝试下哟! 可以在评论区留下你的答案呀!

第一种改写SQL方式:

(
    SELECT
        min(date_format(createts, '%Y')) AS years
    FROM
        t_test_log
)
UNION ALL
  (
        SELECT
            max(date_format(createts, '%Y')) AS years
        FROM
            t_test_log
   )

第二种改写SQL方式:

(
    SELECT
        date_format(minyear, '%Y') AS years
    FROM
        (
            SELECT
                min(createts) AS minyear
            FROM
                t_test_log
        ) t_test_log_1
)
UNION ALL
   (
        SELECT
            date_format(maxyear, '%Y') AS years
        FROM
            (
                SELECT
                    max(createts) AS maxyear
                FROM
                    t_test_log
            ) t_test_log_2
   )
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【赛迪网-IT技术报道】SQL Server数据库查询速度的原因有很多,常见的有以下几种:   1、没有索引或者没有用到索引(这是查询最常见的问题,是程序设计的缺陷)     2、I/O吞吐量小,形成了瓶颈效应。     3、没有创建计算列导致查询优化。     4、内存不足     5、网络速度     6、查询出的数据量过大(可以采用多次查询,其他的方法降低数据量)     7、锁或者死锁(这也是查询最常见的问题,是程序设计的缺陷)     8、sp_lock,sp_who,活动的用户查看,原因是读写竞争资源。     9、返回了不必要的行和列     10、查询语句不好,没有优化 ●可以通过以下方法来优化查询 : 1、把数据、日志、索引放到不同的I/O设备上,增加读取速度,以前可以将Tempdb应放在RAID0上,SQL2000不在支持。数据量(尺寸)越大,提高I/O越重要。 2、纵向、横向分割表,减少表的尺寸(sp_spaceuse) 3、升级硬件 4、根据查询条件,建立索引,优化索引、优化访问方式,限制结果集的数据量。注意填充因子要适当(最好是使用默认值0)。索引应该尽量小,使用字节数小的列建索引好(参照索引的创建),不要对有限的几个值的字段建单一索引如性别字段。 5、提高网速。 6、扩大服务器的内存,Windows 2000和SQL server 2000能支持4-8G的内存。 配置虚拟内存:虚拟内存大小应基于计算机上并发运行的服务进行配置。运行 Microsoft SQL Server? 2000时,可考虑将虚拟内存大小设置为计算机中安装的物理内存的1.5倍。如果另外安装了全文检索功能,并打算运行Microsoft搜索服务以便执行全文索引和查询,可考虑:将虚拟内存大小配置为至少是计算机中安装的物理内存的3倍。将SQL Server max server memory服务器配置选项配置为物理内存的1.5倍(虚拟内存大小设置的一半)。 7、增加服务器CPU个数;但是必须 明白并行处理串行处理更需要资源例如内存。使用并行还是串行程是MsSQL自动评估选择的。单个任务分解成多个任务,就可以在处理器上运行。例如耽搁查询 的排序、连接、扫描和GROUP BY字句同时执行,SQL SERVER根据系统的负载情况决定最优的并行等级,复杂的需要消耗大量的CPU的查询最适合并行处理。但是更新操作UPDATE,INSERT, DELETE还不能并行处理。 8、如果是使用like进行查询的话,简单的使用index是不行的,但是全文索引,耗空间。 like ''a%'' 使用索引 like ''%a'' 不使用索引用 like ''%a%'' 查询时,查询耗时和字段值总长度成正比,所以不能用CHAR类型,而是VARCHAR。对于字段的值很长的建全文索引。 9、DB Server 和APPLication Server 分离;OLTP和OLAP分离 10、分布式分区视图可用于实现数据库服务器联合体。 联合体是一组分开管理的服务器,但它们相互协作分担系统的处理负荷。这种通过分区数据形成数据库服务器联合体的机制能够扩大一组服务器,以支持大型的多层 Web 站点的处理需要。有关更多信息,参见设计联合数据库服务器。(参照SQL帮助文件''分区视图'') a、在实现分区视图之前,必须先水平分区表 b、 在创建成员表后,在每个成员服务器上定义一个分布式分区视图,并且每个视图具有相同的名称。这样,引用分布式分区视图名的查询可以在任何一个成员服务器上 运行。系统操作如同每个成员服务器上都有一个原始表的复本一样,但其实每个服务器上只有一个成员表和一个分布式分区视图。数据的位置对应用程序是透明的。 11、重建索引 DBCC REINDEX ,DBCC INDEXDEFRAG,收缩数据和日志 DBCC SHRINKDB,DBCC SHRINKFILE. 设置自动收缩日志.对于大的数据库不要设置数据库自动增长,它会降低服务器的性能。 在T-sql的写法上有很大的讲究,下面列出常见的要点:首先,DBMS处理查询计划的过程是这样的:   1、 查询语句的词法、语法检查     2、 将语句提交给DBMS的查询优化器     3、 优化器做代数优化和存取路径的优化     4、 由预编译模块生成查询规划     5、 然后在合适的时间提交给系统处理执行     6、 最后将执行结果返回给用户。 其次,看一下SQL SERVER的数据存放的结构:一个页面的大小为8K(8060)字节,8个页面为一个盘区,按照B树存放。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值