深入理解MySQL原理之二--如何建立高效索引

最新推荐文章于 2023-12-29 08:30:00 发布

恰恰虎

最新推荐文章于 2023-12-29 08:30:00 发布

阅读量463

点赞数 2

分类专栏：数据库文章标签： mysql 索引 B+树

本文链接：https://blog.csdn.net/tcy83/article/details/114048168

版权

数据库专栏收录该内容

7 篇文章 2 订阅

订阅专栏

一、前言

当数据库中存储大量数据(比如百万行)，并从中快速检索到我们所需要的记录，如果采用逐行扫描，从磁盘中读取数据并分析，很显然这是个非常糟糕的方案。实际上，生活中有很多类似的例子，比如我们要查某个字，不可能一页一页翻字典，而是根据笔画或者拼音先检索出所要找的字在哪一页，然后再翻到这一页看具体的解释。数据库也是一样，先根据"索引"检索出数据的位置，根据位置就能快速读取内容。

在这一章节，我们将重点介绍：

1、什么是B+树索引，B+树索引有哪些优点。

2、什么是聚簇索引和非聚簇索引，设计的目的是什么？

3、实际研发过程中，如何利用B+树的索引原理，优化索引，使其更加高效。

二、B+树索引

一提到MySQL的索引的数据结构，对MySQL有一定了解的都知道是B+树，这个答案算是部分正确，实际上还有其他的数据结构，比如哈希索引，全文索引，只不过我们常用的是B+树。本章节我们重点谈下InnoDB的B+树索引，既然有B+树，那么必定有B树(balance tree,注意没有B-树)。我们先看下B树，B+树的数据结构，两者有什么不同，MySQL为何要用B+树。

1、数据结构

B树是一颗多叉的平衡树。对于一个m阶的树，定义如下：

(1)、根结点至少有两个子女。
(2)、每个非根节点所包含的关键字个数 j 满足：┌m/2┐ - 1 <= j <= m - 1，┌m/2┐表示向上取整。根节点的关键字个数为1<=j<m-1。
(3)、除根结点以外的所有结点（不包括叶子结点）的度数正好是关键字总数加1，故内部子树个数 k 满足：┌m/2┐ <= k <= m 。
(4)、所有的叶子结点都位于同一层。

以上定义理解比较费劲，我们来看个实例，以5阶的B数为例，根节点关键字范围1<=k<=4，非根节点关键字范围2<=k<=4。

以18,70,50,40,22,23,25,39构建5阶的B树为例。构建的过程如下：

我们看下B树的特点：

(1)、每层的关键字都是从小到大顺序排列，每个关键字的左子树中的所有关键字都小于它，而右子树中的所有关键字都大于它。比如23，它的左子树都小于它(18,22)，右子树都大于它(25,39)。

(2)、所有叶子节点都位于同一层，或者说根节点到每个叶子节点的长度都相同。

(3)、每个节点都存有索引和数据，也就是对应的key和value，即全量数据。(这条如果不理解，可以结合后面MySQL索引再来理解)。

总结一下，B树是一个平衡的多叉树，数据存储是有序的，每个节点保存全量数据。

接下来，我们在看下B+树的数据结构。

相同点：

1、根节点至少一个元素。

2、非根节点元素范围：┌m/2┐ - 1 <=k <= m-1。┌m/2┐表示向上取整。

不同点：

1、非叶子节点，只存储索引(key)，而不存储数据(value)，叶子节点存储所有的数据。

2、非叶子节点，所有的关键字(key)从左到有右，按照从小到大顺序排列，每个key的左子树所有的key值都小于它，右子树的所有key值都大于等于它。

3、叶子结点，每个叶子节点都存有相邻叶子结点的指针，叶子结点本身依关键字的大小自小而大顺序链接。

4、父节点存有右孩子树的第一个元素的索引。

同样，还采用上面B树的例子，看下其B+树结构，并进行比较。

总结一下，B+树是一个平衡的多叉树，数据存储是有序的，非叶节点仅保存索引，叶子节点保存全量数据，相邻叶子节点之间通过指针链接。

MySQL什么选择B+树，而不是B树？又是如何构建B+树索引的？请继续

2、索引

有一张user表，有三个字段，分别为userid，username，sex。如下表

userid	username	sex
18	a1	0
70	a2	0
50	a3	0
40	a4	1
22	a5	0
23	a6	1
25	a7	1
39	a8	1

假设构建以userid为主键索引。

B树索引如下：

B+数索引如下：

再来比较的两者索引的不同点：

1、B树非叶节点，即保存索引key值，又保存数据；B+树非叶节点，仅保存索引key值，数据统一存储到叶子节点。innodb页的默认大小是16KB，如果不存储数据，就能存储更多的key值，阶数就是做的更大，树就可以更矮更胖，查找磁盘的IO次数就会减少，效率就会提高。

2、B+树的叶子节点的数据页通过双向链表按照顺序链接，并保存全量的数据。这就使得排序查找，范围查找，分组查找变的简单，效率更高，但对于B树是无法做到这点的。

3、B+树每次检索所需要进行磁盘IO的次数是同样的，性能更加稳定；而对于B树，根据节点所在的位置，读盘次数从1-m不等。

所以对于MySQL的索引，B+树更有优势。

三、聚簇索引与非聚簇索引

上面介绍我们MySQL的B+索引的原理，再来看什么是聚簇索引，聚簇索引并不是一种索引数据结构，而是一种存储方式。

Innodb表中都会存在一个主键，如果我们不创建，那么系统会选择一个唯一的非空索引代替，如果也没有这样的索引，会隐式的创建一个主键，总之，必须有个主键。主键的索引就是聚簇索引，其主要的特点就是叶子节点上保存全部记录数据。比如上面的示例中，userid为主键索引，那么该索引就是聚簇索引，其叶子节点上保存了对应的userid，username，sex三个字段值。

除了主键索引，其他都是非聚簇索引，它的特点是叶子节点上仅保存主键的值，而不是记录数据。比如以"username"为索引，查询sql"select * from user where username='a3'"

最后在叶节点查到记录是主键值50，再根据主键值到聚簇索引查询完整的数据，进行二次查询，俗称"回表"。(需要注意的是，如果是"select userid,username from user where username='a3'",是不需要回表的，因为非聚簇索引树上已经有需要查询的数据了)。

下面我们就来思考几个问题：

1、为什么要用聚簇索引，它有什么优势？

2、非聚簇索引的叶子节点为什么不保存行指针，或者行记录，而保存主键值。

第一个问题，在《高性能MySQL》中提了几点，总结起来就是，利用聚簇索引，使用主键访问，效率更高。这个比较好理解，数据就是叶子节点上，减少了IO的访问。对于聚簇索引，索引即数据，数据即索引。

第二个问题，因为B+树是顺序的，在数据插入时，聚簇索引的叶子节点的页(行数据页)可能会"裂变",如果非聚簇索引的叶节点记录的是行指针，那么也得更新，但是记录主键的值就不需要更新。至于为何不保存行记录数据，因为聚簇索引已经保存了行记录，其他索引就没有必要再保存行记录数据了，否则导致存储空间的浪费。

四、高性能索引策略

上面介绍了MySQL的Innodb索引的原理，接下来我们看下这对我们建立索引有哪些影响，或者说如何利用其原理特点建立高效的索引。

1、主键索引

主键索引为聚簇索引，其他的索引(非聚簇索引)都是依赖该索引二次检索，所以主键索引对于整个索引的影响很大的。回顾下聚簇索引的特点:

(1)索引数据是有序的(B+树特点)

(2)叶子节点存储行数据

在数据插入时，顺序插入对于磁盘来说效率是最高的，MySQL建议主键索引列数据建议采用自增长，特别要避免一些UUID，hashcode，随机数之类的数据列作为主键，这样会引起随机插入，并发写性能会下降。

2、区分度

面对表中几十个字段，在不考虑查询条件等因素情况下，有没有快速的判断标准，哪些适合做索引，哪些不适合？

MySQL提出了一个区分度的概念，即count(distinct col)/count(*)，区分度越大，表示需要扫描的次数越少，原则上适合作为索引,，比如主键索引的区分度是1；而类似性别字段在大数据的时候，区分度为0，就不适合作为索引字段。但是这个也仅是原则性的，还得看具体的应用场景，一般大于0.1就认为适合。