mysql innodb 如何获取用于 生成执行计划的 数据表统计信息

本文主要记录本人对innodb获取用于优化的统计信息代码的阅读与理解。

1. 背景信息
       当mysql服务端接收到客户端请求之后,它会对用户的sql语句进行解析,优化,和执行。 其中优化是mysql中最复杂的一块代码之一。 它主要的功能是生成高效的执行计划。 所谓的执行计划,就是对查询相关表的使用顺序,以及对每个表使用哪种方式进行数据操作。
       打个比方,假设innodb表t1,t2. 其中t1中有主键c1, t2中有索引c2. 那么如下的这条查询语句
       “select c1,c2 from t1,t2 where c1 between 0 and 10 and c2 = 8”;
可能的优化计划是首先打开t1表,使用c1的range索引进行数据读取,然后打开t2用c2的ref索引进行数据读取。
当然也有可能会先打开t2,然后再打开t1,并且读取数据的方式也有可能是别的。 而这些选择的依据就是这两个innodb表的统计信息。 这些统计信息中最最重要的就是用于描述数据分布情况的cardinality数据,这个值表示索引的唯一值有多少,该值可以通过show index来查看。

2. 概述
       在innodb默认情况下,以及5.6之前的版本中,innodb都是通过取样的方式,用样本数据来估计表格中数据的分布情况。 具体的我们可以看一段Planet MySQL上的解释:

Mysql <wbr>中 <wbr>innodb <wbr>如何获取用于 <wbr>生成执行计划的 <wbr>数据表统计信息


虽然这段文字的功能是在介绍这种方式的弊端,但并不妨碍我们用来理解innodb的具体实现。 我们可以看出innodb的统计信息其实是一个不太准确的评估值,评估样本的数量默认上是8,即取8个页块的样本数据。这个数量可以通过选项innodb_stats_sample_pages来配置。

    在看具体代码之前,我们先大概地了解一下innodb的磁盘存储方式:


Mysql <wbr>中 <wbr>innodb <wbr>如何获取用于 <wbr>生成执行计划的 <wbr>数据表统计信息
innodb中数据与索引一起存放在主键的b-tree中,该b-tree的叶子节点的构成为: 唯一的主键字段,然后用data域来保存这条主键对应的完整的数据记录。 而二级索引将会保存对应的主键字段,并以此来最终定位数据。

Mysql <wbr>中 <wbr>innodb <wbr>如何获取用于 <wbr>生成执行计划的 <wbr>数据表统计信息


这个图大体描述了innodb数据存储的结构,这里需要记住的主要是行是隶属于页的,一个页中会包含多个的行,而磁盘I/O读取的最小单位是页



3. 具体代码解析
   代码的入口是: JOIN类的optimize函数(sql/sql_select.cc),该函数调用了方法make_join_statistics (1960行)来获取统计信息。在
make_join_statistics中,mysql遍历所有的查询相关表,为每个表调用
“table->file->info(HA_STATUS_VARIABLE | HA_STATUS_NO_LOCK);” (4644)。

table->file指的是该表的存储引擎。这里就是innodb引擎。


Mysql <wbr>中 <wbr>innodb <wbr>如何获取用于 <wbr>生成执行计划的 <wbr>数据表统计信息


之后的调用路径大体上为:
info ----->  info_low() ----------> dict_stats_update() --------> dict_stats_update_transient() ----------->btr_estimate_number_of_different_key_vals().
最终从磁盘上获取样本数据,计算cardinality的过程发生在 函数btr_estimate_number_of_different_key_vals中(btr0cur.c的3546行)。

以下是该函数的缩略代码:


Mysql <wbr>中 <wbr>innodb <wbr>如何获取用于 <wbr>生成执行计划的 <wbr>数据表统计信息


从这里开始是获取样本数据信息,btr_cur_open_at_rnd_pos是随机的从b-tree的叶节点中选取一个读取位置。然后获取该位置所在的页,该页的第一行。

Mysql <wbr>中 <wbr>innodb <wbr>如何获取用于 <wbr>生成执行计划的 <wbr>数据表统计信息


然后循环地取下一行,并且比较这行与上行记录的主键字段。因为mysql是支持自动的前缀索引,以及将模糊匹配的索引自动转成范围索引(例如 where key like 'abc%', 这个可以转成 where key>= abc and key<=abd),所以这里innodb会记录这两行主键字段的前缀匹配个数,即从前往后匹配主键字段,当碰到不一样的字段时停止匹配,并记录位置。


Mysql <wbr>中 <wbr>innodb <wbr>如何获取用于 <wbr>生成执行计划的 <wbr>数据表统计信息


然后再根据n_diff中的值去估算主键中不同的前缀所能标识出的不同记录行数,行数越多,说明这个主键前缀越有效。(stat_n_diff_key_vals[ j ] 存的是前 j 个前缀字段所能标识出的不同记录行数),这个统计信息会被用于优化中,用于执行计划的生成。


Mysql <wbr>中 <wbr>innodb <wbr>如何获取用于 <wbr>生成执行计划的 <wbr>数据表统计信息

4. 小结与后记

所以可以看出,mysql 默认情况下和5.6之前的统计信息是不精确的,是个基于随机样本的估计值。而情况在5.6之后有了改进,具体的我们可以看Planet MySQL下面这段叙述:


Mysql <wbr>中 <wbr>innodb <wbr>如何获取用于 <wbr>生成执行计划的 <wbr>数据表统计信息

转自:http://blog.sina.com.cn/s/blog_4673e60301011asr.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: MySQL InnoDBMySQL 中一种常用的数据存储引擎,其特点是支持事务处理和外键约束,并且具有良好的性能和可伸缩性。 InnoDB 的数据存储是以表为单位的,每个表都有一个对应的数据文件,用于存储表中的数据。除了数据文件之外,InnoDB 还有一个索引文件,用于存储索引信息InnoDB 使用了一种称为 B+ Tree 的算法来存储和维护索引,这种算法使得索引查询的效率很高。同时,InnoDB 还支持自适应哈希索引,可以提高对哈希索引的查询性能。 InnoDB 还有一个叫做缓冲池的功能,用于缓存常用的数据和索引,可以提高数据访问的效率。 总的来说,MySQL InnoDB 是一种高效的数据存储引擎,适用于许多不同的应用场景。 ### 回答2: MySQL InnoDB是一种流行的关系型数据库管理系统,提供了可靠的数据存储。InnoDB使用的是多版本并发控制(MVCC)来实现事务的隔离和一致性。它具有以下特点: 1. 事务支持:InnoDB支持ACID(原子性、一致性、隔离性、持久性)事务,并提供了提交和回滚事务的能力。这使得多个操作可以被捆绑在一起,以确保数据的完整性和一致性。 2. 数据完整性:InnoDB使用行级锁定来保护数据的完整性。它可以防止多个同时运行的事务对同一数据进行不一致的更改。此外,InnoDB还支持外键约束,以确保关联表之间的数据完整性。 3. 并发控制:InnoDB使用多版本并发控制(MVCC)来允许多个事务同时访问数据库,而不会造成阻塞。每个事务都可以看到自己的版本数据,这样可以避免读-写冲突和写-写冲突。 4. 高可靠性:InnoDB使用日志文件和检查点机制来确保数据的持久性。日志文件记录了所有的更改操作,并在系统恢复时使用。检查点机制用于定期将内存中的数据刷新到磁盘上,以保证数据的持久性。 5. 外键支持:InnoDB是唯一一个支持外键的存储引擎。外键可以用来创建表之间的关联关系,保证数据的完整性,并进行级联删除和更新操作。 6. 支持热备份:InnoDB支持在线备份,可以在数据库运行时对其进行备份,不会影响正常业务操作。 总之,MySQL InnoDB是一种可靠的数据存储引擎,提供了事务支持、数据完整性、并发控制、高可靠性和外键支持等重要功能,适用于处理大量数据和高并发访问的场景。 ### 回答3: MySQL InnoDB是一种广泛使用的数据存储引擎,它在MySQL数据库系统中起到了至关重要的作用。InnoDB具有以下特点和优势。 首先,InnoDB是一个支持事务的存储引擎。它采用了ACID(原子性、一致性、隔离性和持久性)的特性,保证了数据的完整性和一致性。这意味着可以在多个并发事务之间进行隔离和控制,以避免数据丢失或不一致的情况发生。 其次,InnoDB还支持行级锁定。这意味着在事务处理期间,只有涉及到的特定行会被锁定,而不是整个表。这大大提高了并发性能和响应速度,减少了锁冲突的可能性。 此外,InnoDB还支持外键约束。这意味着在关联表中定义外键时,可以确保数据的完整性和一致性。当涉及到引用的表中的数据变化时,InnoDB会自动处理关联表中的相关数据,以保持数据的一致性。 另外,InnoDB还具有自动崩溃恢复和故障恢复功能。当数据库发生异常或崩溃时,InnoDB可以通过在恢复期间自动回滚未完成的事务,确保数据的一致性。 最后,InnoDB还支持大容量的数据存储和高效的读写性能。它使用多缓冲池和自适应哈希索引等优化技术,在处理大量数据时提供了出色的性能和可伸缩性。 总之,MySql InnoDB是一种功能强大且可靠的数据存储引擎,为用户提供了高度可靠的事务处理、行级别锁定、外键约束、故障恢复和高性能等优势,使之成为当今最受欢迎的关系型数据库管理系统之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值