mysql索引中的InnoDB索引

InnoDB索引模型

在 Mysql 中,索引是在存储引擎层实现的,所以并没有统一的索引标准,即使用不同的存储引擎,其对应索引的工作方式并不一样。

InnoDB存储引擎在Mysql数据库中使用最为普遍,下面来看下InnoDB的索引模型。

在InnoDB中,表都是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表,且数据都是存储在B+树中的。

为什么使用的是B+树,而不是其他的数据索引模型呢?

(1). 减少磁盘IO次数

B+树的数据结构模型将所有数据都放到叶子节点,且叶子节点形成一个列表(可以做范围查询),非叶子节点只放键值,这样每个数据叶中可存放的有效数据就多了,可以有效减少磁盘IO次数。

(2).每次查询的时间复杂度是固定的

在B+树中,由于分支节点只是叶子节点的索引,所以对于任意关键字的查找都必须从根节点走到分支节点,所有关键字查询路径长度相同,每次查询的时间复杂度是固定的。但是在B树中,其分支节点上也保存有数据,对于每一个数据的查询所走的路径长度是不一样的,所以查询效率也不一样。

(3).遍历效率更高

由于B+树的数据都存储在叶子节点上,分支节点均为索引,方便扫库,只需扫一遍叶子即可。但是B树在分支节点上都保存着数据,要找到具体的顺序数据,需要执行一次中序遍历来查找。所以B+树更加适合范围查询的情况,在解决磁盘IO性能的同时解决了B树元素遍历效率低下的问题。

索引分类

(1).聚簇索引

主键索引

在Innodb中,Mysql中的数据是按照主键的顺序来存放的。那么聚簇索引就是按照每张表的主键来构造一颗B+树,叶子节点存放的就是整张表的行数据。由于表里的数据只能按照一颗B+树排序,因此一张表只能有一个聚簇索引。

在Innodb中,聚簇索引默认就是主键索引。

假如表没有设定主键,则按照下列规则来创建聚簇索引

没有主键时,会用一个唯一且不为空的索引列做为主键,成为此表的聚簇索引。

如果没有这样的索引,InnoDB会隐式定义一个主键来作为聚簇索引。


例如现有一个主键列为id的user表,表中有字段 t 和 name,并且在 t 上有索引。
建表语句如下:

create table user(
id int primary key,
t int not null,
name varchar(16),
index (t))engine=InnoDB;

(2).非聚簇索引

联合索引

使用多个列字段建立的索引,称为联合索引,也叫组合索引。
联合索引为:(t,name)

其建表语句如下:

create table user(
id int primary key,
t int not null,
name varchar(16),
index(t),
index(t,name) )engine=innodb;

说到联合索引,一定要谈谈最左匹配原则。

所谓最左匹配原则指的就是如果 SQL 语句中用到了联合索引中的最左边的索引,那么这条 SQL 语句就可以利用这个联合索引去进行匹配,值得注意的是,当遇到范围查询(>、<、between、like)就会停止匹配。

[1].设定表T已建立联合索引(id, name)

where条件为:
id = 1 或者
id = 1 and name = 'tom'
满足联合索引的最左匹配原则,是可以匹配索引来执行sql的

where条件为:
name = 'tom' and id = 1
也满足联合索引的最左匹配原则,因为Mysql优化器会自动调整id,name的顺序与索引顺序一致,这样就能用到联合索引了。

where条件为:
name = 'tom'
不满足联合索引的最左匹配原则,也就无法使用(id, name)的联合索引了。

[2].设定表T已建立联合索引(a, b, c, d)

where条件为:
a = 10 and b = 20 and c >100 and d = 5
这个where条件,只有a, b, c能使用到联合索引,d无法使用索引,因为c>100属于范围查询,将后面d的索引匹配给中断了。

前缀索引

当索引列的字符比较多时,索引很大且速度很慢,此时可以优化索引列,只索引列开始的部分字符串,以此节约索引空间,提高索引效率。

前缀索引的使用原则是:降低重复的索引值

例如有以下一张学生表,st_num为学号

从上表可以发现 st_num 字段前7位都是重复的,都是以0102021开头的。

如果使用前1-7位字符来做前缀索引就会出现大量索引值重复的情况。

此时索引值重复性高,查询效率低下,不符合前缀索引的原则,因此可以依据具体需求来决定使用前8-10位字符来做前缀索引。


前缀索引创建方式如下:

create table `student` (
`st_num` varchar(255) not null,
`sex` int(10) not null,
`name` varchar(255) not null,
index (st_num(8))
)engine=InnoDB;

普通索引
如下user建表语句中的 t 就是一个普通索引,普通索引与主键索引的区别在于,普通索引的叶子节点存放的不是行数据,而是主键值。(在索引原理中会详细说明)

例如现有一个主键列为id的user表,表中有字段 t 和 name,并且在 t 上有索引。
建表语句如下:

create table user(
id int primary key,
t int not null,
name varchar(16),
index (t))engine=InnoDB;

例如:

select * from user where t=100;

这个查询sql会通过 t 这个普通索引在自身的 B+ 树上找到对应主键:1,然后再使用1在主键索引所在的B+树上查询出真实表的行数据后返回结果,这个操作被称为回表。



唯一索引

与普通索引类似,不同点在于唯一索引的索引列的值必须唯一,但允许有空值,这点与主键不同(主键索引列的值唯一,但不能为空)。

如果是多个字段组成的联合索引,则列值的组合必须唯一,创建方法与普通索引类似。


全文索引

5.6版本之后InnoDB存储引擎开始支持全文索引,Mysql允许在char、varchar、text类型上建立全文索引。

Mysql支持三种模式的全文检索模式

1.自然语言模式:通过match against 传递某个特定的字符串进行检索
2.布尔模式:可以为检查的字符串增加操作符
布尔操作符可以通过以下sql语句查看:

3.查询扩展模式:当查询的关键字太短,用户需要隐含知识时进行。

例如,对于单词operating system的查询,用户可能希望查询的结果除了包含operating system的文档,还应该包含linux,windows,unix的单词。

这种查询会分2次执行检索,第1次是使用给定的operating system的短语进行检索,第2次结合第一次相关性比较高的进行检索。

(3).索引原理

聚簇索引

以下面一张学生表student为例,其中s_id为主键。

 对应的聚簇索引结构图如下:

从图中可以看下结构图共分为上下部分,上部分是:由主键s_id形成聚簇索引(B+树),下部分是:student表存储在磁盘上的真实数据。

当我们使用主键s_id作为查询条件时,来看下以下sql的执行过程。

select * from student where s_id='25';

如上图所示,从根开始,经过3次查找,就可以找到s_id=25对应的真实数据。如果不使用索引,那就要在磁盘上,进行逐行扫描,直到找到数据位置。

显然,使用索引速度会快。但是在写入数据的时候,需要维护这颗B+树的结构,因此写入性能会下降!

聚簇索引(主键索引)的叶子节点存储的是整行数据。

非聚簇索引

还是以上述的学生表 student 为例,给该表添加普通索引 name 后,结构图中新增一棵 name 字段的非聚簇索引的 B+ 树。

如下图所示:

因此, 我们每加一个索引,就会增加表的体积,占用磁盘存储空间。

请注意看name字段的非聚簇索引B+树上的叶子节点,非聚簇索引的叶子节点并不是真实数据,它的叶子节点依然是索引节点,存放的是该索引字段的值以及对应的主键(s_id)索引(聚簇索引)。

此时执行下列查询语句:

select * from student where name='Lisa';

通过上图红线可以看出,查询路径是先从非聚簇索引树开始查找,然后找到聚簇索引后根据聚簇索引,在s_id的聚簇索引的B+树上,找到完整的数据!这个过程称为回表。

也就是说,基于非主键索引的查询需要多扫描一棵索引树。因此,我们在应用中应该尽量使用主键查询。


索引维护

因为B+树为了维护索引有序性,在插入新值或删除数据的时候需要做必要的维护。

以上图为示例,如果需要插入新的s_id值为50,则需要在s_id=44的记录后面插入一行新记录。但如果插入的s_id的值为:28,则需要将s_id=31的数据往后挪动。

假如s_id=44所在的数据页满了,根据B+树的算法,此时需要申请一个新的数据页,然后将部分数据挪动到新的数据页上,这个过程称为页分裂。这种情况下,性能自然会受到影响。

页分裂带来的不仅是性能的影响,还会影响数据页的利用率。原本放在一个页的数据,现在分到2个数据页上,整体空间利用率大幅下降。


当相邻两个页由于删除了数据,利用率很低之后,会将数据页做合并。合并的过程,可以认为是分裂过程的逆过程。

基于上述对索引维护过程的说明,下面来讨论一个具体案例:
哪些场景下应该使用自增主键?
哪些场景下又不应该使用自增主键?

我们知道自增主键是指自增列上定义的主键,在建表语句中一般是使用关键字:NOT NULL PRIMARY KEY AUTO_INCREMENT来定义的。


这样在插入新的记录时,是不需要指定自增主键列 id 值的,因为系统会获取当前 id 最大值后+1作为下一条记录的自增主键列 id 的值。


这种插入数据的模式都是追加操作,不涉及到挪动其他记录的操作,也就不会触发叶子节点的分裂了。



从性能角度看:

如果使用业务逻辑的字段做主键,则相比自增主键id,不太容易保证有序插入,这样写数据成本相对较高。

从存储空间角度看:

假设user表中有一个字符串类型的身份证号字段,且是唯一不重复的,此时是用身份证号做主键,还是使用自增字段做主键比较好呢?

前面讲索引原理中讲到非聚簇索引的叶子节点上都是主键的值,如果使用身份证号做主键,那么每个非主键索引的叶子节点占用约20个字节,而如果使用整型做主键,则只需要4个字节,如果是长整型(bigint)则是8个字节。

由此可知,主键长度越小,普通索引的叶子节点就越小,普通索引整体占用的空间也就越小。


因此从性能和存储空间两方面来考虑,使用自增主键作为索引是更优的选择。


单个索引的值字符长度不能过大,因为B+树索引并不能直接找到行,只是找到行所在的页,通过从磁盘把整页读入内存,再在内存中查找。

其中每页的大小是有规定的,页是InnoDB管理存储空间的基本单位:1页=16kb,原则是尽量在一个页内存放多个索引。

覆盖索引

还是以上述例子来讲解,现将下列查询语句:

select * from student where name='Candy';

修改为:

select s_id from student where name='Candy';

这时只需要查 s_id 的值,而 s_id 的值已经在普通索引 name上了,因此可以从非聚簇索引B+树上直接返回查询结果,不需要回表操作。

也就是说,在这个查询里面,索引name已经覆盖了我们的查询需求,因此称为覆盖索引。


由于覆盖索引可以减少树的搜索次数,显著提升查询性能,所以使用覆盖索引是一个常用的性能优化手段。

应用场景

  • 当只有一个索引,且该索引一定是唯一索引。这种场景适合用业务字段直接做主键。业务使用时尽量使用主键查询,避免回表。
  • 当表是经常需要更新的不适合做索引,频繁更新会导致索引也会频繁更新,降低写的效率。
  • 使用索引进行模糊查询时,切记 like 后的关键字的前面不能使用%(例如:name like "%三"),只能在关键字的后面加上%,因为索引是从左至右匹配的,如果在前面加上%就无法找到索引。
  • 数据表过大时,当索引字段的字符长度过长则不适合作为索引。因为查询大量数据时,索引即使有效,但是速度依然慢。
  • 表数据量大且字段值有较多相同值的时候适合选择使用普通索引。
  • 当字段多且字段值没有重复的时候用唯一索引。
  • 当where条件后查询字段较多,适合建立联合索引。
  • 不会出现在where条件后的查询字段,不要建立索引。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sshm_666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值