索引：从模型到如何使用维护！

最新推荐文章于 2024-06-25 10:33:00 发布

Mai_Jun_Hao

最新推荐文章于 2024-06-25 10:33:00 发布

阅读量441

点赞数 10

分类专栏： MySQL 文章标签：数据库

本文链接：https://blog.csdn.net/Mai_Jun_Hao/article/details/135168929

版权

MySQL 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

先从以上思维导图梳理，首先要知道索引的是做什么的，再者了解其内部使用的模型，结合当前流行的数据库引擎InnoDB去分析索引，进一步分析索引的使用和维护。

1、索引的常见模型

索引作用：为了提高查询效率。

实现索引的方式却有很多种，也就是有多种索引模型的意思。用于提高读写效率的数据结构很多，这里介绍三种常见、也比较简单的数据结构，它们分别是哈希表、有序数组和搜索树。

主要从使用的角度，简单分析三种模型的区别：

1.1、哈希表

使用：适用于只有等值查询的场景，比如 Memcached 及其他一些 NoSQL 引擎。

概念：一种以键 - 值（key-value）存储数据的结构，只要输入待查找的键即 key，就可以找到其对应的值即 Value。思路很简单，把值放在数组里，用一个哈希函数把 key 换算成一个确定的位置，然后把 value 放在数组的这个位置。

不可避免地，多个 key 值经过哈希函数的换算，会出现hash冲突的情况。处理这种情况的一种方法是，拉出一个链表。（出现hash冲突，hash冲突之后可以使用hash+链表的方式解决，或者类似java中的hashmap采用hash+链表+红黑树的方式。也可以采用在此hash，向后移动等方式解决hash冲突。hash冲突是无法避免的，只要采用hash的方式就有可能会出现hash冲突。）

key值的计算：把key通过hash计算成确定的位置，最初是取余数，把余数相同的放到同一位置，这个位置叫做哈希槽。哈希槽相同的key就会产生哈希碰撞，碰撞后就会挂在同一链表上。查找的时候先通过key找到哈希槽，再遍历链表找到对应key匹配的值。

假设，现在维护着一个身份证信息和姓名的表，需要根据身份证号查找对应的名字，这时对应的哈希索引的示意图如下所示：

哈希表示意图

图中，User2 和 User4 根据身份证号算出来的值都是 N，但没关系，后面还跟了一个链表。假设，这时候你要查 ID_card_n2 对应的名字是什么，处理步骤就是：首先，将 ID_card_n2 通过哈希函数算出 N；然后，按顺序遍历，找到 User2。

需要注意的是，图中四个 ID_card_n 的值并不是递增的，这样做的好处是增加新的 User 时速度会很快，只需要往后追加。但缺点是，因为不是有序的，所以哈希索引做区间查询的速度是很慢的。

如果你现在要找身份证号在[ID_card_X, ID_card_Y]这个区间的所有用户，就必须全部扫描一遍了。

1.2、有序数组

适用：只适用于静态存储引擎，等值查询和范围查询场景中。

缺点：有序数组相当于数组，在查询方面效率较高，插入数据需要移动位置，效率较低。

根据身份证号查名字的例子，如果我们使用有序数组来实现的话，示意图如下所示：

假设身份证号没有重复，这个数组就是按照身份证号递增的顺序保存的。查 ID_card_n2 对应的名字，用二分法就可以快速得到，时间复杂度是 O(log(N))。

同时也支持范围查询。查身份证号在[ID_card_X, ID_card_Y]区间的 User，可以先用二分法找到 ID_card_X（如果不存在 ID_card_X，就找到大于 ID_card_X 的第一个 User），然后向右遍历，直到查到第一个大于 ID_card_Y 的身份证号，退出循环。

1.3、二叉搜索树

特点：父节点左子树所有结点的值小于父节点的值，右子树所有结点的值大于父节点的值。查 ID_card_n2，搜索顺序： UserA -> UserC -> UserF -> User2 。

时间复杂度是：O(log(N))

为了维持 O(log(N)) 的查询复杂度，需要保持这棵树是平衡二叉树。为了做这个保证，更新的时间复杂度也是 O(log(N))。

2、InnoDB 的索引模型

InnoDB 中，InnoDB 使用了 B+ 树索引模型，表都是根据主键顺序以索引的形式存放的，这种存储方式的表称为索引组织表。（数据都是存储在 B+ 树中的）

每一个索引在 InnoDB 里面对应一棵 B+ 树。

假设有一个主键列为 ID 的表，表中有字段 k，并且在 k 上有索引。

mysql> create table T(
id int primary key, 
k int not null, 
name varchar(16),
index (k))engine=InnoDB;

表中 R1~R5 的 (ID,k) 值分别为 (100,1)、(200,2)、(300,3)、(500,5) 和 (600,6)，两棵树的示例示意图如下。

从图中看出，根据叶子节点的内容，索引类型分为主键索引和非主键索引。

2.1、主键索引

概念：叶子节点存的是整行数据（如ID主键300对应R3整行数据）。在 InnoDB 里，主键索引也被称为聚簇索引（clustered index）。

2.2、非主键索引

概念：叶子节点内容是主键的值（如索引k=1对应ID主键100）。在 InnoDB 里，非主键索引也被称为二级索引（secondary index）。

问题：主键索引和普通索引的查询有什么区别？

如果语句是 select * from T where ID=500，即主键查询方式，则只需要搜索 ID 这棵 B+ 树；
如果语句是 select * from T where k=5，即普通索引查询方式，则需要先搜索 k 索引树，得到 ID 的值为 500，再到 ID 索引树搜索一次。这个过程称为回表。

说明基于非主键索引的查询需要多扫描一棵索引树。因此，我们在应用中应该尽量使用主键查询。