MySql详解（二）--索引篇

最新推荐文章于 2023-08-14 10:41:50 发布

刘了个牛

最新推荐文章于 2023-08-14 10:41:50 发布

阅读量225

点赞数 1

分类专栏： Mysql 文章标签： mysql 数据库 java Powered by 金山文档

本文链接：https://blog.csdn.net/qq_35105015/article/details/129284515

版权

Mysql 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

MySQL索引篇

索引介绍

索引是什么

官方介绍索引是帮助MySQL高效获取数据的数据结构。更通俗的说，数据库索引好比是一本书前面的目录，能加快数据库的查询速度。

一般来说索引本身也很大，不可能全部存储在内存中，因此索引往往是存储在磁盘上的文件中的（可能存储在单独的索引文件中，也可能和数据一起存储在数据文件中）。

我们通常所说的索引，包括聚集索引、覆盖索引、组合索引、前缀索引、唯一索引等，没有特别说明，默认都是使用B+树结构组织（多路搜索树，并不一定是二叉的）的索引。

索引的优势和劣势

优势：

可以提高数据检索的效率，降低数据库的IO成本，类似于书的目录。

通过索引列对数据进行排序，降低数据排序的成本，降低了CPU的消耗。

被索引的列会自动进行排序，包括【单列索引】和【组合索引】，只是组合索引的排序要复杂一些。

如果按照索引列的顺序进行排序，对应order by语句来说，效率就会提高很多。

劣势：

索引会占据磁盘空间

索引虽然会提高查询效率，但是会降低更新表的效率。比如每次对表进行增删改操作，MySQL不仅要保存数据，还有保存或者更新对应的索引文件。

索引的分类

单列索引

普通索引：MySQL中基本索引类型，没有什么限制，允许在定义索引的列中插入重复值和空值，纯粹为了查询数据更快一点。

唯一索引：索引列中的值必须是唯一的，但是允许为空值。主键索引：是一种特殊的唯一索引，不允许有空值。

组合索引

在表中的多个字段组合上创建的索引

组合索引的使用，需要遵循最左前缀原则（最左匹配原则，后面高级篇讲解）。

一般情况下，建议使用组合索引代替单列索引（主键索引除外，具体原因后面知识点讲解）。

全文索引

只有在MyISAM引擎上才能使用，而且只能在CHAR,VARCHAR,TEXT类型字段上使用全文索引。

空间索引

不做介绍，一般使用不到。

索引的使用

创建索引

单列索引之普通索引

CREATE    INDEX    index_name    ON    table(column(length)) ;    
ALTER    TABLE    table_name    ADD    INDEX index_name (column(length))    ;

单列索引之唯一索引

CREATE    UNIQUE    INDEX    index_name    ON    table(column(length))    ;

单列索引之全文索引

CREATE    FULLTEXT    INDEX    index_name    ON    table(column(length))    ;

组合索引

ALTER    TABLE    article    ADD    INDEX    index_titme_time    (title,time);

注意事项：

- 创建索引时，可以指定索引列的长度，但是数值类型不要指定。

删除索引

DROP    INDEX    index_name    ON    table

查看索引

SHOW    INDEX    FROM    table_name

索引的存储结构

页、块、扇区之间的关系和区别。

内存以页这个单位去进行IO读取，一般大小为4K，在MySQL中可以通过Innodb_page_size设置大小，一般设置为16K。

操作系统以块这个逻辑单位去操作磁盘，常见为4K。

磁盘以扇区这个物理最小磁盘单位去存储数据，常见为512Byte。

页大小查看：getconf PAGE_SIZE，常见为4K；磁盘块大小查看：stat /boot/|grep “IO Block”，常见为4K；扇区大小查看：fdisk-l，常见为512Byte；

指针默认长度为6bit，如果key为bigint的话，为8bit，那么一个索引的话为8+6 = 14bit；

索引存储结构介绍

索引是在存储引擎中实现的，也就是说不同的存储引擎，会使用不同的索引数据结构。

MyISAM和InnoDB存储引擎：只支持B+TREE索引，也就是说默认使用B+TREE，不能够更换

B树和B+树

数据结构示例网站： https://www.cs.usfca.edu/~galles/visualization/Algorithms.html

B树图示：

B树是为了磁盘或其它存储设备而设计的一种多叉平衡查找树（下面你会看到，相对于二叉，B树每个内结点有多个分支，即多叉）。

B树的高度一般都是在2-4这个高度，树的高度直接决定IO读写的次数以及查询时间复杂度（log(n)）。

如果是三层树结构---支撑的数据可以达到20G，如果是四层树结构---支撑的数据可以达到几十T

B树和B+树的区别

B树和B+树的最大区别在于非叶子节点是否存储数据的问题。

B树是非叶子节点和叶子节点都会存储数据。

B+树只有叶子节点才会存储数据，而且存储的数据都是在一行上，而且这些数据都是有指针指向的，是有顺链表。

聚集索引（InnoDB）

完整的记录，存储在主键索引中，通过主键索引，就可以获取记录所有的列，也就是说数据和索引是在一起，这就是聚集索引。

主键索引

没有主键怎么办？

辅助索引（次要索引）

非聚集索引（MyISAM）

B+树叶子节点只会存储数据行（数据文件）的指针，简单来说数据和索引不在一起，就是非聚集索引。

非聚集索引包含主键索引和辅助索引都会存储指针的值

主键索引

辅助索引（次要索引）

联合索引的存储结构

首先，表T1有字段a,b,c,d,e，其中a是主键，除e为varchar其余为int类型，并创建了一个联合索引idx_t1_bcd(b,c,d)，然后b、c、d三列作为联合索引，在B+树上的结构正如上图所示。联合索引的所有索引列都出现在索引数上，并依次比较三列的大小。上图树高只有两层不容易理解，下面是假设的表数据以及我对其联合索引在B+树上的结构图的改进。

PS：基于InnoDB存储引擎。

bcd联合索引在B+树上的结构图

联合索引的查找方式

当我们的SQL语言可以应用到索引的时候，比如select * from T1 where b = 12 and c = 14 andd = 3; 也就是T1表中a列为4的这条记录。存储引擎首先从根节点（一般常驻内存）开始查找，第一个索引的第一个索引列为1,12大于1，第二个索引的第一个索引列为56,12小于56，于是从这俩索引的中间读到下一个节点的磁盘文件地址，从磁盘上Load这个节点，通常伴随一次磁盘IO，然后在内存里去查找。当Load叶子节点的第二个节点时又是一次磁盘IO，比较第一个元素，b=12,c=14,d=3完全符合，于是找到该索引下的data元素即ID值，再从主键索引树上找到最终数据。

最左前缀匹配原则

之所以会有最左前缀匹配原则和联合索引的索引构建方式及存储结构是有关系的。

首先我们创建的idx_t1_bcd(b,c,d)索引，相当于创建了(b)、（b、c）（b、c、d）三个索引，看完下面你就知道为什么相当于创建了三个索引。

我们看，联合索引是首先使用多列索引的第一列构建的索引树，用上面idx_t1_bcd(b,c,d)的例子就是优先使用b列构建，当b列值相等时再以c列排序，若c列的值也相等则以d列排序。我们可以取出索引树的叶子节点看一下。

索引的第一列也就是b列可以说是从左到右单调递增的，但我们看c列和d列并没有这个特性，它们只能在b列值相等的情况下这个小范围内递增，如第一叶子节点的第1、2个元素和第二个叶子节点的后三个元素。

由于联合索引是上述那样的索引构建方式及存储结构，所以联合索引只能从多列索引的第一列开始查找。所以如果你的查找条件不包含b列如（c,d）、(c）、(d)是无法应用缓存的，以及跨列也是无法完全用到索引如(b,d)，只会用到b列索引。

查看执行计划

建表语句

create table tuser(
id int primary key,
name varchar(100),
age int,
sex char(1),
address varchar(100)
);
alter table tuser add index idx_name_age(name(100),age);
alter table tuser add index idx_sex(sex(1));

insert into tuser(id,name,age,sex,address) values (1,'zhangsan',20,'0','致真
大厦');

介绍

MySQL 提供了一个 EXPLAIN 命令, 它可以对 SELECT 语句的执行计划进行分析, 并输出SELECT 执行的详细信息, 以供开发人员针对性优化.

使用explain这个命令来查看一个这些SQL语句的执行计划，查看该SQL语句有没有使用上了索引，有没有做全表扫描，这都可以通过explain命令来查看。

可以通过explain命令深入了解MySQL的基于开销的优化器，还可以获得很多可能被优化器考虑到的访问策略的细节，以及当运行SQL语句时哪种策略预计会被优化器采用。

EXPLAIN 命令用法十分简单, 在 SELECT 语句前加上 explain 就可以了,例如:

参数说明

EXPLAIN 命令的输出内容大致如下:

mysql> explain select * from user where id = 2
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: user_info
partitions: NULL
type: const
possible_keys: PRIMARY
key: PRIMARY
key_len: 8
ref: rows: filtered:
Extra: NULL
1 row in set,    1 warning    (0.00    sec)

各列的含义如下:

id: SELECT 查询的标识符. 每个 SELECT 都会自动分配一个唯一的标识符.

select_type: SELECT 查询的类型. table:查询的是哪个表

partitions: 匹配的分区

type: join 类型

possible_keys: 此次查询中可能选用的索引

key: 此次查询中确切使用到的索引. ref: 哪个字段或常数与key 一起被使用

rows: 显示此查询一共扫描了多少行. 这个是一个估计值. ﬁltered: 表示此查询条件所过滤的数据的百分比

extra: 额外的信息

id

每个单位查询的SELECT语句都会自动分配的一个唯一标识符，表示查询中操作表的顺序，有以下情况：

id相同：执行顺序由上到下

id不同：如果是子查询，id号会自增，id越大，优先级越高。

id列为null的就表示这是一个结果集，不需要使用它来进行查询。

select_type（重要）

单位查询的查询类型，比如：普通查询、联合查询(union、union all)、子查询等复杂查询。

simple

表示不需要union操作或者不包含子查询的简单select查询。有连接查询时，外层的查询为simple，且只有一个

primary

一个需要union操作或者含有子查询的select，位于最外层的单位查询的select_type即为primary。且只有一个

union

union连接的两个select查询，第一个查询是dervied派生表，除了第一个表外，第二个以后的表select_type都是union

dependent union

与union一样，出现在union 或union all语句中，但是这个查询要受到外部查询的影响

union result

包含union的结果集，在union和union all语句中,因为它不需要参与查询，所以id字段为null

subquery

除了from字句中包含的子查询外，其他地方出现的子查询都可能是subquery

dependent subquery

与dependentunion类似，表示这个subquery的查询要受到外部表查询的影响

derived

from字句中出现的子查询，也叫做派生表，其他数据库中可能叫做内联视图或嵌套select

table

显示的单位查询的表名，有如下几种情况：

如果查询使用了别名，那么这里显示的是别名如果不涉及对数据表的操作，那么这显示为null

如果显示为尖括号括起来的就表示这个是临时表，后边的N就是执行计划中的id，表示结果来自于这个查询产生。

如果是尖括号括起来的<union M,N>，与类似，也是一个临时表，表示这个结果来自于union查询的id为M,N的结果集。

type

显示的是单位查询的连接类型或者理解为访问类型，访问性能依次从好到差：

1	system
2	const
3	eq_ref
4	ref
5	fulltext
6	ref_or_null
7	unique_subquery
8	index_subquery
9	range
10	index_merge
11	index
12	ALL

注意事项：

除了all之外，其他的type都可以使用到索引

除了index_merge之外，其他的type只可以用到一个索引

最少要使用到range级别

system

表中只有一行数据或者是空表。

const

使用唯一索引或者主键，返回记录一定是1行记录的等值where条件时，通常type是const。其他数据库也叫做唯一索引扫描。

eq_ref

多表关联、等值连接。

等值连接的两个表的列是唯一索引列或者主键列。

此类型通常出现在多表的 join 查询, 表示对于前表的每一个结果, 都只能匹配到后表的一行结果. 并且查询的比较操作通常是 = , 查询效率较高。

ref

多表关联等值连接

等值连接的两个表的列是非唯一索引列

针对非唯一性索引，使用等值（=）查询。或者是使用了最左前缀规则索引的查询。

组合索引：

非唯一索引:

fulltext

全文索引检索，要注意，全文索引的优先级很高，若全文索引和普通索引同时存在时，mysql不管代价，优先选择使用全文索引

ref_or_null

与ref方法类似，只是增加了null值的比较。实际用的不多。

unique_subquery

用于where中的in形式子查询，子查询返回不重复值唯一值

index_subquery

用于in形式子查询使用到了辅助索引或者in常数列表，子查询可能返回重复值，可以使用索引将子查询去重。

range

索引范围扫描，常见于使用>,<,isnull,between ,in ,like等运算符的查询中。

index_merge

表示查询使用了两个以上的索引，最后取交集或者并集，常见and ，or的条件使用了不同的索引，官方排序这个在ref_or_null之后，但是实际上由于要读取所个索引，性能可能大部分时间都不如range

index

select结果列中使用到了索引，type会显示为index。

全部索引扫描，把索引从头到尾扫一遍，常见于使用索引列就可以处理不需要读取数据文件的查询、可以使用索引排序或者分组的查询。

all

这个就是全表扫描数据文件，然后再在server层进行过滤返回符合要求的记录

possible_keys

此次查询中可能选用的索引，一个或多个

key

查询真正使用到的索引，select_type为index_merge时，这里可能出现两个以上的索引，其他的

select_type这里只会出现一个。

key_len

用于处理查询的索引长度，如果是单列索引，那就整个索引长度算进去，如果是多列索引，那么查询不一定都能使用到所有的列，具体使用到了多少个列的索引，这里就会计算进去，没有使用到的列，这里不会计算进去。

留意下这个列的值，算一下你的多列索引总长度就知道有没有使用到所有的列了。

另外，key_len只计算where条件用到的索引长度，而排序和分组就算用到了索引，也会计算到key_len中。

ref

如果是使用的常数等值查询，这里会显示const

如果是连接查询，被驱动表的执行计划这里会显示驱动表的关联字段

如果是条件使用了表达式或者函数，或者条件列发生了内部隐式转换，这里可能显示为func

rows

这里是执行计划中估算的扫描行数，不是精确值（InnoDB不是精确的值，MyISAM是精确的值，主要原因是InnoDB里面使用了MVCC并发机制）

extra（重要）

这个列包含不适合在其他列中显示单十分重要的额外的信息，这个列可以显示的信息非常多，有几十种

using index（重要）

查询时不需要回表查询，直接通过索引就可以获取查询的结果数据。

表示相应的SELECT查询中使用到了覆盖索引（Covering Index），避免访问表的数据行，效率不错！

如果同时出现Using Where ，说明索引被用来执行查找索引键值

如果没有同时出现Using Where ，表明索引用来读取数据而非执行查找动作。

using where（重要）

表示Mysql server层将对storage engine提取的结果进行过滤，过滤条件字段无索引；

using indexcondition(重要)

介绍

Using index condition会先条件过滤索引，过滤完索引后找到所有符合索引条件的数据行，随后用WHERE 子句中的其他条件去过滤这些数据行；

因为MySQL的架构原因，分成了server层和引擎层，才有所谓的“下推”的说法。所以ICP（Index Condition Pushdown，索引下推）其实就是实现了index ﬁlter技术，将原来的在server层进行的table ﬁlter中可以进行index ﬁlter的部分，在引擎层面使用index ﬁlter进行处理，不再需要回表进行table filter。

Index Condition Pushdown(ICP)是MySQL 5.6中新特性，是一种在存储引擎层使用索引过滤数据的一种优化方式。ICP可以减少存储引擎访问基表的次数以及MySQL服务器访问存储引擎的次数。

where条件分类

要想深入理解 ICP 技术，必须先理解数据库是如何处理 where 中的条件的。

对 where 中过滤条件的处理，根据索引使用情况分成了三种：indexkey, index ﬁlter, table ﬁlter。

index key

用于确定SQL查询在索引中的连续范围(起始范围+结束范围)的查询条件，被称之为Index Key。

由于一个范围，至少包含一个起始与一个终止，因此IndexKey也被拆分为Index First Key和Index Last Key，分别用于定位索引查找的起始，以及索引查询的终止条件。也就是说根据索引来确定扫描的范围。

Index filter

在使用 index key 确定了起始范围和结束范围之后，在此范围之内，还有一些记录不符合where条件，如果这些条件可以使用索引进行过滤，那么就是 index ﬁlter。也就是说用索引来进行where条件过滤。

table filter

where 中的条件不能使用索引进行处理的，只能访问table，进行条件过滤了。

也就是说各种各样的 where 条件，在进行处理时，分成了上面三种情况：

一种条件会使用索引确定扫描的范围；

一种条件可以在索引中进行过滤；

一种必须回表进行过滤；

如何确定哪些where条件分别是 index key, index ﬁlter, table ﬁlter？

在 MySQL5.6 之前，并不区分Index Filter与Table Filter，统统将Index First Key与Index Last Key范围内的索引记录，回表读取完整记录，然后返回给MySQL Server层进行过滤。

而在MySQL 5.6（包含）之后，Index Filter与Table Filter分离，Index Filter下降到InnoDB的索引层面进行过滤，减少了回表与返回MySQLServer层的记录交互开销，提高了SQL的执行效率。

所以所谓的ICP技术，其实就是 index ﬁlter技术而已。只不过因为MySQL的架构原因，分成了server层和引擎层，才有所谓的“下推”的说法。所以ICP其实就是实现了index ﬁlter技术，将原来的在server层进行的table ﬁlter中可以进行indexﬁlter的部分，在引擎层面使用indexﬁlter进行处理，不再需要回表进行table ﬁlter。

不使用ICP扫描的过程

storage层：

只将满足index key条件的索引记录对应的整行记录取出，返回给server层。

server 层：

对返回的数据，使用后面的where条件过滤，直至返回最后一行。

使用ICP扫描的过程

storage层：

首先将index key条件满足的索引记录区间确定，然后在索引上使用index ﬁlter进行过滤将满足的index ﬁlter条件的索引记录才去回表取出整行记录返回server层。

不满足index ﬁlter条件的索引记录丢弃，不回表、也不会返回server层。

server 层：

对返回的数据，使用table ﬁlter条件做最后的过滤。

使用前后的成本差别

使用ICP前，存储层多返回了需要被index ﬁlter过滤掉的整行记录。

使用ICP后，直接就去掉了不满足index ﬁlter条件的记录，省去了他们回表和传递到server层的成本。

ICP 例子

官方文档给出了一个例子：

SELECT * FROM people WHERE zipcode = '95054' and lastname like '%etrunia%' AND
address LIKE '%Main Street%'

上面例子中的 lastername like '%etrunia%' 和 address like'%Main Street%' 本来是无法使用复合索引 index(zipcode, lastername, ﬁrstname) 进行过滤的，但是因为有了ICP技术，所以他们可以在index ﬁlter 阶段使用索引进行过滤，无需回表进行 table ﬁlter。

例子2：

role_goods 表上有组合索引 index(roleId,status,number)，下面的select语句，因为 “索引最左前缀原则”，只能使用到组合索引的 roleId 部分，但是因为ICP 技术的存在，现在 number条件过滤也可以在 index ﬁlter 阶段完成了，无需像以前一样需要进行 tableﬁler 了：

mysql> explain select * from role_goods where roleId=100000001 and number=1;
+----+-------------+------------+------+---------------+----------+---------
+-------+------+-----------------------+
| id | select_type | table    | type | possible_keys | key    | key_len |
ref    | rows | Extra    |
+----+-------------+------------+------+---------------+----------+---------
+-------+------+-----------------------+
|    1 | SIMPLE    | role_goods | ref    | roleId_2    | roleId_2 | 9    |
const |    14 | Using index condition |
+----+-------------+------------+------+---------------+----------+---------
+-------+------+-----------------------+
1 row in set (0.01 sec)

案例解析：

可以看到 key_len = 9, 因为 roleId是bigint 类型，所以 key_len = 8 + 1 = 9; 所以在 indexkey 阶段中，并没有使用到组合索引 index(roleId,status,number) 中的 number 字段(因为中间有一个status字段没有出现在where 条件中)，但是 “Usingindex condition” 却说明使用到了ICP技术，显然是 number=1 条件过滤使用到了ICP技术。

ICP的使用条件

只能用于二级索引(secondary index)。

explain显示的执行计划中type值（join 类型）为range、 ref、 eq_ref或者ref_or_null且查询需要访问表的整行数据，即不能直接通过二级索引的元组数据获得查询结果(索引覆盖)。

对于InnnoDB表，ICP仅用于二级索引。（ICP的目的是减少全行读取的次数，从而减少IO操作）。

对于innodb聚集索引，完整的记录已被读入到innodb缓冲区，在这种情况下，ICP不会减少io。

ICP可以用于MyISAM和InnnoDB存储引擎，不支持分区表（5.7将会解决这个问题）

using filesort（重要）

排序时无法使用到索引时，就会出现这个。常见于order by和group by语句中说明MySQL会使用一个外部的索引排序，而不是按照索引顺序进行读取。MySQL中无法利用索引完成的排序操作称为“文件排序”

using temporary

表示使用了临时表存储中间结果。

MySQL在对查询结果orderby和group by时使用临时表

临时表可以是内存临时表和磁盘临时表，执行计划中看不出来，需要查看status变量，used_tmp_table，used_tmp_disk_table才能看出来。

distinct

在select部分使用了distinct关键字（索引字段）

mysql> explain select distinct a.id from tuser a,tdep b where
a.dep=b.id;

+----+-------------+-------+--------+-----------------------------------
-------------+---------+---------+------------+------+------------------
-------------------------+
| id | select_type | table | type    | possible_keys
| key    | key_len | ref    | rows | Extra
|
+----+-------------+-------+--------+-----------------------------------
-------------+---------+---------+------------+------+------------------
-------------------------+
|    1 | SIMPLE    | a    | index    |
PRIMARY,idx_loginname,idx_name_age_sex,idx_dep | idx_dep | 5    |
NULL    |    2 | Using where; Using index; Using temporary |
|    1 | SIMPLE    | b    | eq_ref | PRIMARY
| PRIMARY | 4    | kkb2.a.dep |    1 | Using index;
Distinct    |
+----+-------------+-------+--------+-----------------------------------
-------------+---------+---------+------------+------+------------------
-------------------------+