Mysql索引

最新推荐文章于 2023-07-20 19:49:48 发布

Rhin0cer0s

最新推荐文章于 2023-07-20 19:49:48 发布

阅读量120

点赞数

分类专栏：数据库

本文链接：https://blog.csdn.net/Rhin0cer0s/article/details/104634517

版权

数据库专栏收录该内容

18 篇文章 0 订阅

订阅专栏

什么是索引

索引的出现就是为了提高查询效率，就相当于字典的目录一样。

索引的优劣势

优势：

提高查询效率，降低数据库IO成本
通过索引对数据排序，降低CPU消耗

劣势：

索引占用磁盘空间
更新操作需要额外维护索引文件

索引的数据模型

hash：以key-value形式存放数据，同一个key下拉出链表

优点：
	等值查询或是插入操作效率高。
缺点：
	区间查询效率极低。[X,Y] 
适用场景：
	Memcached或NoSql数据库引擎

有序数组：

优点：
	利用二分法，查询效率高。
缺点：
	除了递增的追加插入外，中间插入效率很低，因为需要挪动后面数据
适用场景：
	特殊的业务如统计人口，以后不会再更新数据

二叉搜索树

每个节点最多有2个分叉，左子树和右子树数据顺序左小右大。这样能保证查找折半从而减少IO次数。
但二叉查找树可能出现不分叉的极端情况（一边子树远高于另一边）这样查找效率又退化为O(n)。

针对上述情况，我们需要平衡二叉树，它的左右子树高度最多相差1，插入删除数据通过旋转保持平衡。平衡二叉查找树查询性能接近二分法，时间复杂度是 O(log2n)。查询id=6，只需要两次IO。
在这里插入图片描述

但平衡二叉树仍然存在不少问题：

时间复杂度与树高相关。每个节点读取对应一次磁盘IO操作（磁盘寻道时间约为10ms）当数据量达到100w，log2n约等于20次IO操作，需要 20*10 = 0.2s，性能较差
对范围查询不友好。需要从根节点多次遍历，效率不高

B树

我们知道磁盘IO是非常耗时的，访问二叉树的每个节点都需要一次IO，要解决平衡二叉树的第1个问题就要降低树的高度。如何降低？

假设key为bigint=8个字节，每个节点有两个指针（4字节），这样一个节点占用空间为16字节（二叉树节点）
但MySQL的InnoDB的存储单位是数据页，每次IO会读取一页，默认16k的数据量，如果使用二叉树节点那么一页空间只有16字节的有效数据，空间利用率极低。
为了提高空间利用率，在一个节点塞入多个元素，最多可以存入 16k/16 = 1000个索引，这就将二叉树变为多叉树。构建100w数据，只需要2层（1000^2）通过2次IO就可以查询到数据，这种数据结构就是B树。

B树的确在平衡二叉树基础上更进一步，但依然存在优化空间：

B树依然没有解决平衡二叉树的第2个问题：不支持范围查询，依然需要从根节点多次遍历
B树的特点之一是节点会存储数据，即key-value都存在节点上，一个元素的占用空间越多，相应的一个节点（一页）存放的元素会越少，树会变高，IO次数变大。

B+树

B+树针对B树存在的问题进行优化：

B+树只有叶子节点才会存储数据，非叶子节点只存储键值。叶子节点之间使用双向指针连接，最底层的叶子节点形成了一个双向有序链表。方便范围查找
由于数据存储下沉到叶子节点，非叶子节点可以存放更多的键值，所以相对于B树来说，B+树的树高理论上情况下是比B树要矮的。
因为数据都存储在叶子节点，所以每次查询必定需要读取到叶子节点才结束（相对于B树在非叶子节点就查询到所需数据），但可以通过覆盖索引进行优化

有关B树和B+树的查询示例，可参考下面文章：
一文搞懂MySQL索引所有知识点

InnoDB索引模型

InnoDB中表是根据主键顺序以索引的形式存放的，这种存储方式为索引组织表
InnoDB索引具体使用B+树，所以数据存放在B+树中
每一个索引都对应一棵B+树
InnoDB下每张表默认创建主键索引

1、主键索引（聚簇索引）

InnoDB引擎下建表就建立的索引，也是所有数据存放的地方，因为主键索引的这棵B+树的叶子节点存放的是整行数据

2、非主键索引（普通索引）

有需要就创建，在非主键字段上创建普通索引，它的B+树中叶子节点存放的是主键的值

基于主键和非主键索引查询有何不同？

以主键为条件，只需要搜索主键索引树一棵即可
以非主键为条件，需要搜索普通索引树，找到存放的主键值，再根据主键值到主键树查询，这个过程叫做回表
因此尽量使用主键为条件查询

索引维护

B+树插入删除数据需要必要的维护，例如插入时要挪动后面数据，更麻烦的是当数据页满了，需要页分裂（除了影响性能外有可能空间利用率降低）；删除的时候也会伴随页合并

自增列作为主键到底好不好？
从性能上看，自增列符合递增插入，都在末尾追加插入，不涉及挪动数据和页分裂，成本低；而用业务逻辑字段做主键则不能保证这一点。
从空间利用率上看，如果业务逻辑字段为字符串类型，占用空间一般比int、long大，那么当创建普通索引时，叶子节点存放主键占用空间就会更大。
所以自增列适合作为主键，当然也有业务字段做主键的场景，例如KV场景，只有唯一个索引。

适合随机唯一值作主键的场景：

静态数据：常年只做查询，很少更新操作
不设置二级索引，就不用考虑存储空间问题
直接设置成主键索引，避免回表

另外，UUID（唯一随机）（雪花算法）适合做主键，方便分库分表（分布式）。

3、覆盖索引

基于已存在的索引，如果一个索引能够满足一个请求，不需要回表，就说明这个索引“覆盖”了我们的请求
覆盖索引常常用来优化sql语句。

4、联合索引

基于覆盖索引，如果有一个高频请求，如果不建立联合索引，它就需要回表查询；如果建立联合索引，就刚好形成覆盖索引，不需要回表。
这种创建联合索引也是优化性能的一种手段，但是创建冗余索引必定占用空间，所以收益和代价需要权衡

联合索引的最左前缀原则

它的出现是为了尽可能减少独立的索引，最左前缀可以用于在索引中定位记录。
1、通过调整联合索引内的字段顺序，达到减少一个索引的作用；例如有(a,b)联合索引，一般就不需要单独的a索引，或者说(a,b)，中包括了a索引

(name , age) ---->(“zhangsan”,“20”)

2、当一定需要a , b两个独立索引有需要它们的联合索引时，则考虑空间原则：谁占用的少，谁就在联合索引最前面

5、索引下推

Mysql 5.6以上支持索引下推优化：
在索引遍历过程中，对索引中包含的字段先做判断，过滤掉不符合条件的记录，减少回表次数。
例如再（name，age）索引中，搜索符合条件的主键值时，会顺带判断age符不符合条件，而没有索引下推功能是不会在联合索引遍历时就判断的。

B+树索引物理结构

InnoDB的B+树在磁盘上是如何存储的？

数据行

每一行由头部和身体组成。

头部存放额外信息，例如指向下一条记录的next_record

身体存放真实数据。

数据行结构使得行与行之间关联起来，组成有序的单向链表（按照主键排序）

注：行与行之前的单向链表与B+树叶子节点的双向链表不冲突：
这里的单向链表指的是同一个数据页内中的所有行有序排列
数据页之间组成双向链表，具体见下文

数据页

InnoDB一个数据页默认 16 KB大小，可以存放多条数据行。

如何快速定位某行数据？

数据页里有个“页目录”
页内所有行按规则分成若干组，每组抽出最大主键放入目录中
这样就可以通过二分法快速定位某行

页结构：File Header 中的 FIL_PAGE_PREV、FIL_PAGE_NEXT 记录上一个页号和下一个页号，形成双向链表串联所有页

目录项

如何定位在哪一数据页上？

为所有数据页建立目录项（目录项：数据页最小的主键 + 页号）
通过二分法定位即可

另外，由于目录项内容与真实内容类似，可以直接用数据页存储，通过record_type 区分。

二分法定位有前提：必须拿到所有的目录项，但最小单位是页，可能出现一页放不下。

B+树

上面说到，出现一页放不下问题，那就对这些目录项再生成更高一级目录，即大目录嵌小目录，直到最顶级目录只需要一个数据页就能存下。

这就是B+树索引结构。这里的顶级目录就是B+树的根节点，小目录则是B+树的非叶子节点

叶子节点：实际用户记录
非叶子节点：目录项

Rhin0cer0s

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mysql索引

什么是索引索引的出现就是为了提高查询效率，就相当于字典的目录一样。索引的数据模型1、hash：以key-value形式存放数据，同一个key下拉出链表优点：等值查询或是插入操作效率高。缺点：区间查询效率极低。[X,Y] 适用场景： Memcached或NoSql数据库引擎2、有序数组：优点：利用二分法，查询效率高。缺点：除了递增的追加插入外，中间插入效率很低，...
复制链接

扫一扫