MySQL实战45讲-04/05 | 深入浅出索引

伊布拉西莫

已于 2022-03-29 09:00:31 修改

阅读量134

点赞数

文章标签： scrum mysql 数据库

于 2022-03-28 22:28:15 首次发布

原文链接：https://time.geekbang.org/column/intro/100020801

版权

极客学院-《MySQL实战45讲》学习笔记

索引的出现其实就是为了提高数据查询的效率，就像书的目录一样。

深入浅出索引（上）

索引的常见模型

哈希表

哈希表是一种以键 - 值（key-value）存储数据的结构，我们只要输入待查找的键即 key，就可以找到其对应的值即 Value。
哈希的思路很简单，把值放在数组里，用一个哈希函数把 key 换算成一个确定的位置，然后把 value 放在数组的这个位置。
多个 key 值经过哈希函数的换算，会出现同一个值的情况（hash碰撞）。处理这种情况的一种方法是，拉出一个链表。

假设，你现在维护着一个身份证信息和姓名的表，需要根据身份证号查找对应的名字，这时对应的哈希索引的示意图如下所示：
在这里插入图片描述

类似于 java中 hashmap 结构。

哈希表这种结构适用于只有等值查询的场景，比如 Memcached 及其他一些 NoSQL 引擎。

有序数组

有序数组在等值查询和范围查询场景中的性能就都非常优秀。

还是上面这个根据身份证号查名字的例子，如果我们使用有序数组来实现的话，示意图如下所示：
在这里插入图片描述
这里我们假设身份证号没有重复，这个数组就是按照身份证号递增的顺序保存的。这时候如果你要查 ID_card_n2 对应的名字，用二分法就可以快速得到，这个时间复杂度是 O(log(N))。

有序数组不管是等值查找和范围查找都很优秀，可是有序数组不适合更新、删除、增加。比较适合静态数据。如： 2017 年某个城市的所有人口信息，这类不会再修改的数据。

二叉搜索树

在这里插入图片描述

N叉树
树可以有二叉，也可以有多叉。
你可以想象一下一棵 100 万节点的平衡二叉树，树高 20。一次查询可能需要访问 20 个数据块。
在机械硬盘时代，从磁盘随机读一个数据块需要 10 ms 左右的寻址时间。也就是说，对于一个 100 万行的表，如果使用二叉树来存储，单独访问一个行可能需要 20 个 10 ms的时间，这个查询可真够慢的。

为了让一个查询尽量少地读磁盘，就必须让查询过程访问尽量少的数据块。那么，我们就不应该使用二叉树，而是要使用**“N 叉”树**。这里，“N 叉”树中的“N”取决于数据块的大小。

以 InnoDB 的一个整数字段索引为例，这个 N 差不多是1200。这棵树高是 4 的时候，就可以存 1200 的 3 次方个值，这已经17 亿了。

MySql默认一个节点的长度为16K
show VARIABLES like 'innodb_page_size'; // 16384

考虑到树根的数据块总是在内存中的，一个 10 亿行的表上一个整数字段的索引，查找一个值最多只需要访问 3 次磁盘。

其实，树的第二层也有很大概率在内存中，那么访问磁盘的平均次数就更少了。

** 字段大小->页内节点个数->树的层数；**

nnoDB 的索引模型

InnoDB 使用了 B+ 树索引模型， 每一个索引在 InnoDB 里面对应一棵 B+ 树。

假设，我们有一个主键列为 ID 的表，表中有字段 k，并且在k 上有索引。
在这里插入图片描述

主键索引的叶子节点存的是整行数据。在 InnoDB 里，主键索引也被称为聚簇索引（clustered index）。
非主键索引的叶子节点内容是主键的值。在 InnoDB 里，非主键索引也被称为二级索引（secondary index）。

索引维护

B+ 树为了维护索引有序性，在插入新值的时候需要做必要的维护。
比较麻烦的情况：插入的数据需要挪动已存的数据，空出位置。
更糟的情况是: 挪动的数据页已经慢了，需要进行页分裂。

除了性能外，页分裂操作还影响数据页的利用率。原本放在一个页的数据，现在分到两个页中，整体空间利用率降低大约 50%。

当然有分裂就有合并.
当相邻两个页由于删除了数据，利用率很低之后，会将数据页做合并。合并的过程，可以认为是分裂过程的逆过程。

小结1

由于 InnoDB 是索引组织表，一般情况下我会建议你创建一个自增主键，这样非主键索引占用的空间最小。
主键大小会影响所有索引的大小

问题

为什么要重建索引。
我们文章里面有提到，索引可能因为删除，或者页分裂等原因，导致数据页有空洞，重建索引的过程会创建一个新的索引，把数据按顺序插入，这样页面的利用率最高，也就是索引更紧凑、更省空间。

InnoDB 表 T，如果你要重建索引 k，你的两个 SQL 语句可以这么写：

alter table T drop index k;
alter table T add index(k);

如果你要重建主键索引，也可以这么写：


alter table T drop primary key;
alter table T add primary key(id);

主键索引这样处理，不合理。不论是删除主键还是创建主键，都会将整个表重建!!!
所以连着执行这两个语句的话，第一个语句就白做了。

你可以用这个语句代替：alter table T engine=InnoDB。
这个语句在innobDB里会触发mysql重建该表，并进行碎片处理。

深入浅出索引（下）

回到主键索引树搜索的过程，我们称为回表。，应避免回表过程呢？

覆盖索引

查询的值和查询条件 都在索引树上，不需要回表，称为覆盖索引。

由于覆盖索引可以减少树的搜索次数，显著提升查询性能，所以使用覆盖索引是一个常用的性能优化手段。

最左前缀原则

B+ 树这种索引结构，可以利用索引的“最左前缀”，来定位记录。

在建立联合索引的时候，如何安排索引内的字段顺序。

这里我们的评估标准是，索引的复用能力。
因为可以支持最左前缀，所以当已经有了(a,b)这个联合索引后，一般就不需要单独在 a 上建立索引了。
因此，第一原则是，如果通过调整顺序，可以少维护一个索引，那么这个顺序往往就是需要优先考虑采用的。

另外一个考虑的原则就是空间.
对于既有name查询，又有age查询的需求： name 字段是比 age 字段大的，那我就建议你创建一个（name,age)的联合索引和一个 (age)的单字段索引。

索引下推

索引下推是mysql5.6后的一个新特性，为了减少回表次数，
举例来说，联合索引（name, age），如果现在有一个需求：检索出表中“名字第一个字是张，而且年龄是 10 岁的所有男孩”。那么，SQL 语句是这么写的：

mysql> select * from tuser where name like '张%' and age=10 and ismale=1;

前缀索引规则，所以这个语句在搜索索引树的时候，只能用 “张”. 然后判断其他条件是否满足。
在 MySQL 5.6 之前，只能一个个回表。到主键索引上找出数据行，再对比字段值。
而 MySQL 5.6 引入的索引下推优化（index condition pushdown)，可以在索引遍历过程中，对索引中包含的字段先做判断，直接过滤掉不满足条件的记录，减少回表次数。图 3 和图 4，是这两个过程的执行流程图。
在这里插入图片描述

无索引下推：需要回表 4 次。
有索引下推：只需要回表 2 次

小结

DBA 小吕在入职新公司的时候，就发现自己接手维护的库里面，有这么一个表，表结构定义类似这样的：


CREATE TABLE `geek` (
  `a` int(11) NOT NULL,
  `b` int(11) NOT NULL,
  `c` int(11) NOT NULL,
  `d` int(11) NOT NULL,
  PRIMARY KEY (`a`,`b`),
  KEY `c` (`c`),
  KEY `ca` (`c`,`a`),
  KEY `cb` (`c`,`b`)
) ENGINE=InnoDB;

公司的同事告诉他说，由于历史原因，这个表需要a、b做联合主键，这个小吕理解了。
但是，学过本章内容的小吕又纳闷了，既然主键包含了a、b 这两个字段，那意味着单独在字段 c 上创建一个索引，就已经包含了**三个字段（cab）**了呀，为什么要创建“ca”“cb”这两个索引？

同事告诉他，是因为他们的业务里面有这样的两种语句：

select * from geek where c=N order by a limit 1;
select * from geek where c=N order by b limit 1;

为了这两个查询模式，这两个索引是否都是必须的？为什么呢？
结论：** ca 可以去掉，cb 需要保留。**

伊布拉西莫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MySQL实战45讲-04/05 | 深入浅出索引

极客学院-《MySQL实战45讲》学习笔记索引的出现其实就是为了提高数据查询的效率，就像书的目录一样。深入浅出索引（上）索引的常见模型哈希表哈希表是一种以键 - 值（key-value）存储数据的结构，我们只要输入待查找的键即 key，就可以找到其对应的值即 Value。哈希的思路很简单，把值放在数组里，用一个哈希函数把 key 换算成一个确定的位置，然后把 value 放在数组的这个位置。多个 key 值经过哈希函数的换算，会出现同一个值的情况（hash碰撞）。处理这种情况的一种方法是.
复制链接

扫一扫