Mysql内核查询成本计算

对于MySQL5.6之前的版本来说,只能通过EXPLAIN语句查看到最后优化器决定使用的执行 计划却无法知道它为什么做这个决策我们可能有这样的疑问:  “我就觉得使用其他 的执行方案比EXPLAIN输出的这种方案强,凭什么优化器做的决定和我想的不一样呢?为 什么MySQL一定要全文扫不用索引呢? 

在MySQL 5.6以及之后的版本中,MySQL提出了一个optimizer trace的功能这个功能可 以让我们方便的查看优化器生成执行计划的整个过程。

SELECT * FROM order_exp WHERE order_no  IN  ('DD00_6S', 'DD00_9S',                 'DD00_10S') AND   expire_time> '2021-03-22  18:28:28' AND expire_time<=         '2021-03-22  18:35:09' AND  insert_time> expire_time AND order_note LIKE '%7 排1%' AND   order_status = 0 ;

我们执行如下的命令

SET optimizer_trace="enabled=on" ;

SELECT * FROM order_exp WHERE order_no  IN  ('DD00_6S', 'DD00_9S',                 'DD00_10S') AND   expire_time> '2021-03-22  18:28:28' AND expire_time<=         '2021-03-22  18:35:09' AND  insert_time> expire_time AND order_note LIKE '%7 排1%' AND   order_status = 0 ;

SELECT * FROM  information_schema.OPTIMIZER_TRACE\G

可以看见全表扫描的成本:2169.9

使用索引idx_order_no的成本为72.61

使用索引idx_expire_time的成本为47.81

最终MySQL使用了idx_expire_time作为这个SQL查询过程中索引

因为优化器最终会选择成本最低的那种方案来作为最终的执行计划

但是这些成本怎么来的呢?搞明白了这些成本的由来,就不会再有诸如“为什么MySQL一 定要全文扫描不用索引呢?为什么MySQL要用A索引不用B索引之类的疑问? ”了因为 以上的答案都可以用成本分析来解答。所以接下来,我们就要深入MySQL的内核来看看这 些成本是如何计算的

什么是成本

MySQL执行一个查询可以有不同的执行方案它会选择其中成本最低或者说代价最低的 那种方案去真正的执行查询。什么是执行成本呢?其实在MySQL中一条查询语句的执行成 本是由下边这两个方面组成的

I/O成本

我们的表经常使用的MyISAM、InnoDB存储引擎都是将数据和索引都存储到磁盘上的我们想查询表中的记录时,需要先把数据或者索引加载到内存中然后再操作。这个从磁 盘到内存这个加载的过程损耗的时间称之为I/O成本

CPU成本

读取以及检测记录是否满足对应的搜索条件对结果集进行排序等这些操作损耗的时间 称之为CPU成本

对于InnoDB存储引擎来说,页是磁盘和内存之间交互的基本单位,MySQL规定读取一个页 面花费的成本默认是1.0读取以及检测一条记录是否符合搜索条件的成本默认是0.2 1.0、0.2这些数字称之为成本常数,这两个成本常数我们最常用到,当然还有其他的成 本常数

注意,不管读取记录时需不需要检测是否满足搜索条件,其成本都算是0.2

单表查询的成本

MySQL查询成本计算实战

在一条单表查询语句真正执行之前,MySQL的查询优化器会找出执行该语句所有可能使的方案,对比之后找出成本最低的方案,这个成本最低的方案就是所谓的执行计后才会调用存储引擎提供的接口真正的执行查询,这个过程总结一下就是这样

1根据搜索条件找出所有可能使用的索引

2、计算全表扫描的代价

3、计算使用不同索引执行查询的代价

4、对比各种执行方案的代价,找出成本最低的那一个

我们依然以上面的查询语句来分析

SELECT * FROM order_exp WHERE order_no  IN  ('DD00_6S', 'DD00_9S',                 'DD00_10S') AND   expire_time> '2021-03-22  18:28:28' AND expire_time<=         '2021-03-22  18:35:09' AND  insert_time> expire_time AND order_note LIKE '%7 排1%' AND   order_status = 0 ;

我们一步一步分析一下

1. 根据搜索条件  找出所有可能使用的索引

MySQL把一个查询中可能使用到的索引称之为possible keys

我们分析一下上边查询中涉及到的几个搜索条件

order_no IN ('DD00_6S', 'DD00_9S', 'DD00_10S') 这个搜索条件可以使用二级索引 idx_order_no

expire_time> '2021-03-22 18:28:28' AND expire_time<= '2021-03-22 18:35:09' 这个搜索条件可以使用二级索引idx_expire_time

insert_time> expire_time这个搜索条件的索引列由于没有和常数比较所以并不能 使用到索引

order_note LIKE '%hello%',order_note即使有索引但是通过LIKE操作符和以通配符 开头的字符串做比较,不可以适用索引

order_status = 0,由于该列上只有联合索引,而且不符合最左前缀原则所以不会用 到索引

综上所述,上边的查询语句可能用到的索引,也就是possible keys只有

idx_order_no,idx_expire_time

2. 计算全表扫描的代价

对于InnoDB存储引擎来说,全表扫描的意思就是把聚簇索引中的记录都依次和给定的搜 索条件做一下比较,把符合搜索条件的记录加入到结果集,所以需要将聚簇索引对应页面加载到内存中,然后再检测记录是否符合搜索条件。由于查询成本=I/O成本+CPU成 本,所以计算全表扫描的代价需要两个信息

聚簇索引占用的页面

该表中的记录数

这两个信息从哪来呢?MySQL为每个表维护了一系列的统计信息,关于这些统计信息是如 何收集起来的我们放在后边再说,现在看看怎么查看这些统计信息

MySQL给我们提供了SHOW TABLE STATUS语句来查看表的统计信息,如果要看指定的某个 表的统计信息,在该语句后加对应的LIKE语句就好了,比方说我们要查看order_exp这个 表的统计信息可以这么写

SHOW TABLE STATUS LIKE 'order_exp'\G

出现了很多统计选项但我们目前只需要两个

Rows

本选项表示表中的记录条数。对于使用MyISAM存储引擎的表来说,该值是准确的对于 使用InnoDB存储引擎的表来说,该值是一个估计值。从查询结果我们也可以看出来,于我们的order_exp表是使用InnoDB存储引擎的,所以虽然实际上表中有10567条记录 但是SHOW TABLE STATUS显示的Rows值只有10354条记录

Data_length

本选项表示表占用的存储空间字节数。使用MyISAM存储引擎的表来说,该值就是数据文 件的大小,对于使用InnoDB存储引擎的表来说,该值就相当于聚簇索引占用的存储空间 大小,也就是说可以这样计算该值的大小

Data_length = 聚簇索引的页面数量 x 每个页面的大小

我们的order_exp使用默认16KB的页面大小,而上边查询结果显示Data_length的值是 1589248所以我们可以反向来推导出聚簇索引的页面数量

聚簇索引的页面数量 = 1589248 ÷ 16 ÷ 1024 = 97

我们现在已经得到了聚簇索引占用的页面数量以及该表记录数的估计值,所以就可以计 算全表扫描成本了

现在可以看一下全表扫描成本的计算过程

I/O成本

97 x 1.0 + 1.1 = 98.1

97指的是聚簇索引占用的页面数,1.0指的是加载一个页面的IO成本常数,后边的1.1是 一个微调值

TIPS  MySQL在真实计算成本时会进行一些微调  这些微调的值是直接硬编码到代码里 的  没有注释而且这些微调的值十分的小  并不影响我们大方向的分析。

CPU成本

10354x 0.2 + 1.0 = 2071.8

10354指的是统计数据中表的记录数,对于InnoDB存储引擎来说是一个估计值0.2指的 是访问一条记录所需的CPU成本常数,后边的1.0是一个微调值

总成本

98.1 + 2071.8= 2169.9

综上所述,对于order_exp的全表扫描所需的总成本就是2169.9

TIPS  我们前边说过表中的记录其实都存储在聚簇索引对应B+树的叶子节点中  所以只

要我们通过根节点获得了最左边的叶子节点,  就可以沿着叶子节点组成的双向链表把所

有记录都查看一遍

也就是说全表扫描这个过程其实有的B+树非叶子节点是不需要访问的  但是MySQL在计算

全表扫描成本时直接使用聚簇索引占用的页面数作为计算I/O成本的依据  是不区分非叶

子节点和叶子节点的

3. 计算使用不同索引执行查询的代价

从第1步分析我们得到,上述查询可能使用到idx_order_no,idx_expire_time这两个索 引,我们需要分别分析单独使用这些索引执行查询的成本,最后还要分析是否可能使用 到索引合并(什么是索引合并,我们后面的课程会讲到)。这里需要提一点的是,MySQL 查询优化器先分析使用唯一二级索引的成本,再分析使用普通索引的成本,我们这里两 个索引都是普通索引,先算哪个都可以。我们先分析idx_expire_time的成本然后再看

使用idx_order_no的成本

使用idx_ expire_ time执行查询的成本分析

idx_expire_time对应的搜索条件是expire_time> '2021-03-22 18:28:28' AND     expire_time<= '2021-03-22 18:35:09' 也就是说对应的范围区间就是: ('2021-03- 22 18:28:28' , '2021-03-22 18:35:09' )

使用idx_expire_time搜索会使用用二级索引 + 回表方式的查询,MySQL计算这种查询的 本依赖两个方面的数据

1   范围区间数量

不论某个范围区间的二级索引到底占用了多少页面,查询优化器认为读取索引的一个范 围区间的I/O成本和读取一个页面是相同的。本例中使用idx_expire_time的范围区间只 有一个,所以相当于访问这个范围区间的二级索引付出的I/O成本就是1 x  1.0 =  1.0 2   需要回表的记录数

优化器需要计算二级索引的某个范围区间到底包含多少条记录对于本例来说就是要计 算idx_expire_time在('2021-03-22 18:28:28' ,'2021-03-22 18:35:09')这个范围区 间中包含多少二级索引记录,计算过程是这样的

步骤1先根据expire_time>  ‘2021-03-22 18:28:28’这个条件访问一下            idx_expire_time对应的B+树索引找到满足expire_time>  ‘2021-03-22 18:28:28’这 个条件的第一条记录,我们把这条记录称之为区间最左记录。我们前头说过在B+数树定位一条记录的过程是很快的,是常数级别的,所以这个过程的性能消耗是可以忽略不 计的

步骤2然后再根据expire_time<=  ‘2021-03-22 18:35:09’这个条件继续从         idx_expire_time对应的B+树索引中找出最后一条满足这个条件的记录,我们把这条记录 称之为区间最右记录,这个过程的性能消耗也可以忽略不计的

步骤3:如果区间最左记录和区间最右记录相隔不太远(在MySQL 5.7这个版本里只要 相隔不大于10个页面即可),那就可以精确统计出满足expire_time>  ‘2021-03-22

18:28:28’ AND expire_time<=  ‘2021-03-22 18:35:09’条件的二级索引记录条数 否则只沿着区间最左记录向右读10个页面,计算平均每个页面中包含多少记录,然后用 这个平均值乘以区间最左记录和区间最右记录之间的页面数量就可以了。那么问题又了,怎么估计区间最左记录和区间最右记录之间有多少个页面呢?解决这个问题还得B+树索引的结构中来

我们假设区间最左记录在页b中,区间最右记录在页c中,那么我们想计算区间最左记录 和区间最右记录之间的页面数量就相当于计算页b和页c之间有多少页面,而它们父节点 中记录的每一条目录项记录都对应一个数据页,所以计算页b和页c之间有多少页面就相 当于计算它们父节点(也就是页a)中对应的目录项记录之间隔着几条记录。在一个页中统计两条记录之间有几条记录的成本就很小了

不过还有问题,如果页b和页c之间的页面实在太多,以至于页b和页c对应的目录项记录 都不在一个父页面中怎么办?既然是树,那就继续递归,之前我们说过一个B+树有4层高 已经很了不得了,所以这个统计过程也不是很耗费性能

知道了如何统计二级索引某个范围区间的记录数之后,就需要回到现实问题中来MySQL 根据上述算法测得idx_expire_time在区间('2021-03-22 18:28:28' ,'2021-03-22    18:35:09')之间大约有39条记录

explain SELECT * FROM order_exp WHERE expire_time> '2021-03-22  18:28:28'

AND expire_time<= '2021-03-22  18:35:09' ;

读取这39条二级索引记录需要付出的CPU成本就是

39 x 0.2 + 0.01 = 7.81

其中39是需要读取的二级索引记录条数,0.2是读取一条记录成本常数,0.01是微调。 在通过二级索引获取到记录之后,还需要干两件事儿                           1 、根据这些记录里的主键值到聚簇索引中做回表操作

MySQL评估回表操作的I/O成本依旧很简单粗暴他们认为每次回表操作都相当于访问一 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值