MySQL实战45讲-04/05 | 深入浅出索引

极客学院-《MySQL实战45讲》 学习笔记

索引的出现其实就是为了提高数据查询的效率,就像书的目录一样。

深入浅出索引(上)

索引的常见模型

哈希表

哈希表是一种以键 - 值(key-value)存储数据的结构,我们只要输入待查找的键即 key,就可以找到其对应的值即 Value。
哈希的思路很简单,把值放在数组里,用一个哈希函数把 key 换算成一个确定的位置,然后把 value 放在数组的这个位置
多个 key 值经过哈希函数的换算,会出现同一个值的情况(hash碰撞)。处理这种情况的一种方法是,拉出一个链表

假设,你现在维护着一个身份证信息和姓名的表,需要根据身份证号查找对应的名字,这时对应的哈希索引的示意图如下所示:
在这里插入图片描述

类似于 java中 hashmap 结构。

哈希表这种结构适用于只有等值查询的场景,比如 Memcached 及其他一些 NoSQL 引擎。

有序数组

有序数组在等值查询范围查询场景中的性能就都非常优秀。

还是上面这个根据身份证号查名字的例子,如果我们使用有序数组来实现的话,示意图如下所示:
在这里插入图片描述
这里我们假设身份证号没有重复,这个数组就是按照身份证号递增的顺序保存的。这时候如果你要查 ID_card_n2 对应的名字,用二分法就可以快速得到,这个时间复杂度是 O(log(N))

有序数组不管是等值查找和范围查找都很优秀,可是有序数组不适合更新、删除、增加。比较适合静态数据。如: 2017 年某个城市的所有人口信息,这类不会再修改的数据。

二叉搜索树

在这里插入图片描述

N叉树
树可以有二叉,也可以有多叉。
你可以想象一下一棵 100 万节点的平衡二叉树树高 20。一次查询可能需要访问 20 个数据块
在机械硬盘时代,从磁盘随机读一个数据块需要 10 ms 左右的寻址时间。也就是说,对于一个 100 万行的表,如果使用二叉树来存储,单独访问一个行可能需要 20 个 10 ms的时间,这个查询可真够慢的。

为了让一个查询尽量少地读磁盘,就必须让查询过程访问尽量少的数据块。那么,我们就不应该使用二叉树,而是要使用**“N 叉”树**。这里,“N 叉”树中的“N”取决于数据块的大小。

以 InnoDB 的一个整数字段索引为例,这个 N 差不多是1200。这棵树高是 4 的时候,就可以存 1200 的 3 次方个值,这已经17 亿了。

MySql默认一个节点的长度为16K
show VARIABLES like 'innodb_page_size'; // 16384

考虑到树根的数据块总是在内存中的,一个 10 亿行的表上一个整数字段的索引,查找一个值最多只需要访问 3 次磁盘

其实,树的第二层也有很大概率在内存中,那么访问磁盘的平均次数就更少了。

** 字段大小->页内节点个数->树的层数;**

nnoDB 的索引模型

InnoDB 使用了 B+ 树索引模型, 每一个索引在 InnoDB 里面对应一棵 B+ 树。

假设,我们有一个主键列为 ID 的表,表中有字段 k,并且在k 上有索引
在这里插入图片描述

  • 主键索引的叶子节点存的是整行数据。在 InnoDB 里,主键索引也被称为聚簇索引(clustered index)
  • 非主键索引的叶子节点内容是主键的值。在 InnoDB 里,非主键索引也被称为二级索引(secondary index)

索引维护

B+ 树为了维护索引有序性,在插入新值的时候需要做必要的维护。
比较麻烦的情况:插入的数据需要挪动已存的数据,空出位置。
更糟的情况是: 挪动的数据页已经慢了, 需要进行页分裂

除了性能外,页分裂操作还影响数据页的利用率。原本放在一个页的数据,现在分到两个页中,整体空间利用率降低大约 50%。

当然有分裂就有合并.
当相邻两个页由于删除了数据,利用率很低之后,会将数据页做合并。合并的过程,可以认为是分裂过程的逆过程。

小结1

由于 InnoDB 是索引组织表,一般情况下我会建议你创建一个自增主键,这样非主键索引占用的空间最小。
主键大小会影响所有索引的大小

问题

为什么要重建索引。
我们文章里面有提到,索引可能因为删除,或者页分裂等原因,导致数据页有空洞,重建索引的过程会创建一个新的索引,把数据按顺序插入,这样页面的利用率最高,也就是索引更紧凑、更省空间。

InnoDB 表 T,如果你要重建索引 k,你的两个 SQL 语句可以这么写:

alter table T drop index k;
alter table T add index(k);

如果你要重建主键索引,也可以这么写:


alter table T drop primary key;
alter table T add primary key(id); 

主键索引这样处理,不合理。不论是删除主键还是创建主键,都会将整个表重建!!!
所以连着执行这两个语句的话,第一个语句就白做了

你可以用这个语句代替 :alter table T engine=InnoDB
这个语句在innobDB里会触发mysql重建该表并进行碎片处理



深入浅出索引(下)

回到主键索引树搜索的过程,我们称为回表。,应避免回表过程呢?

覆盖索引

查询的值和查询条件 都在索引树上 ,不需要回表,称为覆盖索引。

由于覆盖索引可以减少树的搜索次数,显著提升查询性能,所以使用覆盖索引是一个常用的性能优化手段。

最左前缀原则

B+ 树这种索引结构,可以利用索引的“最左前缀”,来定位记录。

在建立联合索引的时候,如何安排索引内的字段顺序。

这里我们的评估标准是,索引的复用能力。
因为可以支持最左前缀,所以当已经有了(a,b)这个联合索引后,一般就不需要单独在 a 上建立索引了。
因此,第一原则是如果通过调整顺序,可以少维护一个索引,那么这个顺序往往就是需要优先考虑采用的。

另外一个考虑的原则就是空间.
对于既有name查询,又有age查询的需求: name 字段是比 age 字段大的 ,那我就建议你创建一个(name,age)的联合索引和一个 (age)的单字段索引。

索引下推

索引下推是mysql5.6后的一个新特性为了减少回表次数
举例来说,联合索引(name, age),如果现在有一个需求:检索出表中“名字第一个字是张,而且年龄是 10 岁的所有男孩”。那么,SQL 语句是这么写的:

mysql> select * from tuser where name like '张%' and age=10 and ismale=1;

前缀索引规则,所以这个语句在搜索索引树的时候,只能用 “张”. 然后判断其他条件是否满足。
在 MySQL 5.6 之前,只能一个个回表到主键索引上找出数据行,再对比字段值。
而 MySQL 5.6 引入的索引下推优化(index condition pushdown), 可以在索引遍历过程中,对索引中包含的字段先做判断直接过滤掉不满足条件的记录,减少回表次数。图 3 和图 4,是这两个过程的执行流程图。
在这里插入图片描述
在这里插入图片描述

  • 无索引下推:需要回表 4 次。
  • 有索引下推:只需要回表 2 次

小结

DBA 小吕在入职新公司的时候,就发现自己接手维护的库里面,有这么一个表,表结构定义类似这样的:


CREATE TABLE `geek` (
  `a` int(11) NOT NULL,
  `b` int(11) NOT NULL,
  `c` int(11) NOT NULL,
  `d` int(11) NOT NULL,
  PRIMARY KEY (`a`,`b`),
  KEY `c` (`c`),
  KEY `ca` (`c`,`a`),
  KEY `cb` (`c`,`b`)
) ENGINE=InnoDB;

公司的同事告诉他说,由于历史原因,这个表需要a、b联合主键,这个小吕理解了。
但是,学过本章内容的小吕又纳闷了,既然主键包含了a、b 这两个字段,那意味着单独在字段 c 上创建一个索引,就已经包含了**三个字段(cab)**了呀,为什么要创建“ca”“cb”这两个索引?

同事告诉他,是因为他们的业务里面有这样的两种语句:

select * from geek where c=N order by a limit 1;
select * from geek where c=N order by b limit 1;

为了这两个查询模式,这两个索引是否都是必须的?为什么呢?
结论:** ca 可以去掉,cb 需要保留。**

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值