3.索引-CSDN博客

本文链接：https://blog.csdn.net/m0_48712425/article/details/132028205

索引（index）是帮助MySQL高效获取数据的数据结构(有序)

在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法，这种数据结构就是索引

优势	劣势
提高数据检索的效率，降低数据库的IO成本	索引列也是要占用空间的
通过索引列对数据进行排序，降低数据排序的成本，降低CPU的消耗	索引大大提高了查询效率，同时却也降低更新表的速度，如对表进行INSERT、UPDATE、DELETE时，效率降低

1. MySQL的索引

索引是在存储引擎层实现的，而不是在服务器层实现的，所以不同存储引擎具有不同的索引类型和实现。

索引结构	描述
B+ Tree 索引	最常见的索引类型，大部分引擎都支持 B+ 树索引
Hash索引	底层数据结构是用哈希表实现的, 只有精确匹配索引列的查询才有效, 不支持范围查询
R-tree（空间索引）	空间索引是MyISAM引擎的一个特殊索引类型，主要用于地理空间数据类型，通常使用较少
Full-text（全文索引）	是一种通过建立倒排索引,快速匹配文档的方式。类似于 Lucene,Solr,ES

1. B+ Tree 索引

B+ Tree 是大多数 MySQL 存储引擎的默认索引类型

因为不再需要进行全表扫描，只需要对树进行搜索即可，因此查找速度快很多。除了用于查找，还可以用于排序和分组

可以指定多个列作为索引列，多个索引列共同组成键

适用于全键值、键值范围和键前缀查找，其中键前缀查找只适用于最左前缀查找。如果不是按照索引列的顺序进行查找，则无法使用索引

InnoDB 的 B+Tree 索引分为主索引和辅助索引

主索引的叶子节点 data 域记录着完整的数据记录，这种索引方式被称为聚集索引。因为无法把数据行存放在两个不同的地方，所以一个表只能有一个聚集索引

辅助索引的叶子节点的 data 域记录着主键的值，因此在使用辅助索引进行查找时，需要先查找到主键值，然后再到主索引中进行查找。

2. R- Tree(空间数据索引)

MyISAM 存储引擎支持空间数据索引(R-Tree)，可以用于地理数据存储。空间数据索引会从所有维度来索引数据，可以有效地使用任意维度来进行组合查询。

必须使用 GIS 相关的函数来维护数据

3. Full-text(全文索引)

MyISAM 存储引擎支持全文索引，用于查找文本中的关键词，而不是直接比较是否相等。查找条件使用 match against，而不是普通的 where

全文索引一般使用倒排索引实现，它记录着关键词到其所在文档的映射

InnoDB 存储引擎在 MySQL 5.6.4 版本中也开始支持全文索引

4. Hash索引

哈希索引能以 O(1) 时间进行查找，但是失去了有序性，它具有以下限制:

无法用于排序与分组
只支持精确查找，无法用于部分查找和范围查找

InnoDB 存储引擎有一个特殊的功能叫“自适应哈希索引”，当某个索引值被使用的非常频繁时，会在 B+Tree 索引之上再创建一个哈希索引，这样就让 B+Tree 索引具有哈希索引的一些优点，比如快速的哈希查找

2. B+ Tree原理

1. 数据结构

B Tree 指的是 Balance Tree，也就是平衡树。平衡树是一颗查找树，并且所有叶子节点位于同一层。

B+ Tree 是基于 B Tree 和叶子节点顺序访问指针进行实现，它具有 B Tree 的平衡性，并且通过顺序访问指针来提高区间查询的性能。

在 B+ Tree 中，一个节点中的 key 从左到右非递减排列，如果某个指针的左右相邻 key 分别是 keyi 和 keyi+1，且不为 null，则该指针指向节点的所有 key 大于等于 keyi 且小于等于 keyi+1

2. 操作

进行查找操作时，首先在根节点进行二分查找，找到一个 key 所在的指针，然后递归地在指针所指向的节点进行查找。直到查找到叶子节点，然后在叶子节点上进行二分查找，找出 key 所对应的 data。

插入删除操作记录会破坏平衡树的平衡性，因此在插入删除操作之后，需要对树进行一个分裂、合并等操作来维护平衡性

3. 与红黑树的比较

红黑树等平衡树也可以用来实现索引，但是文件系统及数据库系统普遍采用 B+ Tree 作为索引结构，主要有以下两个原因:

更少的查找次数

红黑树虽然在顺序插入数据时，最终会形成一颗平衡的二叉树，但是在大数据量的情况下，层级较层，检索速度慢 (二叉树不可避免的问题)
利用计算机预读特性

为了减少磁盘 I/O，磁盘往往不是严格按需读取，而是每次都会预读。预读过程中，磁盘进行顺序读取，顺序读取不需要进行磁盘寻道，并且只需要很短的旋转时间，因此速度会非常快

操作系统一般将内存和磁盘分割成固态大小的块，每一块称为一页，内存与磁盘以页为单位交换数据。数据库系统将索引的一个节点的大小设置为页的大小，使得一次 I/O 就能完全载入一个节点，并且可以利用预读特性，相邻的节点也能够被预先载入

3. 索引的语法

创建索引

CREATE  [ UNIQUE | FULLTEXT ]  INDEX  index_name  ON  table_name ( index_col_name,... ) ;

index_name：索引名
table_name：表名
index_col_name：字段名

查看索引
```
SHOW INDEX FROM table_name;
```
删除索引
```
DROP INDEX index_name ON table_name;
```

4. SQL性能分析

1 SQL执行频率

# session 是查看当前会话 
# global 是查询全局数据

SHOW GLOBAL STATUS LIKE 'Com___';

Com_delete：删除次数
Com_insert：插入次数
Com_select：查询次数
Com_update：更新次数

通过上述指令，我们可以查看到当前数据库到底是以查询为主，还是以增删改为主，从而为数据库优化提供参考依据

如果是以增删改为主，我们可以考虑不对其进行索引的优化

如果是以查询为主，那么就要考虑对数据库的索引进行优化

2 慢查询日志

慢查询日志记录了所有执行时间超过指定参数（long_query_time，单位：秒，默认10秒）的所有 SQL语句的日志

MySQL的慢查询日志默认没有开启，我们可以查看一下系统变量：slow_query_log

# 查看慢查询日志是否开启

show variables like 'slow_query_log';

如果要开启慢查询日志，需要在MySQL的配置文件（/etc/my.cnf）中配置如下信息

# 开启MySQL慢日志查询开关

slow_query_log=1

# 设置慢日志的时间为2秒，SQL语句执行时间超过2秒，就会视为慢查询，记录慢查询日志

long_query_time=2

配置完毕之后，通过以下指令重新启动MySQL服务器进行测试

systemctl restart mysqld

查看慢日志文件中记录的信息 /var/lib/mysql/localhost-slow.log

通过慢查询日志，就可以定位出执行效率比较低的SQL，从而有针对性的进行优化。

3 profile详情

show profiles 能够在做SQL优化时帮助我们了解时间都耗费到哪里去了

# 查看当前MySQL是否支持profile操作

SELECT @@have_profiling;

# 查看是否开启了profile操作

SELECT @@profiling

# 通过set语句在 session/global 级别开启profiling

SET profiling = 1;

执行一系列的业务SQL的操作，然后通过如下指令查看指令的执行耗时

# 查看每一条SQL的耗时基本情况

show profiles;

# 查看指定query_id的SQL语句各个阶段的耗时情况

show profile for query query_id;

# 查看指定query_id的SQL语句CPU的使用情况

show profile cpu for query query_id;

4 explain

EXPLAIN 或者 DESC命令获取 MySQL 如何执行 SELECT 语句的信息，包括在 SELECT 语句执行过程中表如何连接和连接的顺序。

语法：

# 直接在select语句之前加上关键字 explain / desc

EXPLAIN SELECT 字段列表 FROM 表名 WHERE 条件;

含义：

字段	含义
id	select 查询的序列号，表示查询中执行select子句或者是操作表的顺序 (id相同，执行顺序从上到下；id不同，值越大，越先执行)
select_type	表示 SELECT 的类型，常见的取值有 SIMPLE（简单表，即不使用表连接或者子查询）、PRIMARY（主查询，即外层的查询）、 UNION（UNION 中的第二个或者后面的查询语句）、SUBQUERY（ SELECT / WHERE 之后包含了子查询）等
type	表示连接类型，性能由好到差的连接类型为NULL、system、const、 eq_ref、ref、range、 index、all 。
possible_key	显示可能应用在这张表上的索引，一个或多个。
key	实际使用的索引，如果为 NULL，则没有使用索引。
key_len	表示索引中使用的字节数，该值为索引字段最大可能长度，并非实际使用长度，在不损失精确性的前提下，长度越短越好。
rows	MySQL 认为必须要执行查询的行数，在 innodb 引擎的表中，是一个估计值，可能并不总是准确的。
filtered	表示返回结果的行数占需读取行数的百分比，filtered 的值越大越好。

5. 索引使用

1 最左前缀法则

如果索引了多列（联合索引），要遵守最左前缀法则；最左前缀法则指的是查询从索引的最左列开始，并且不跳过索引中的列；如果跳跃某一列，索引将会部分失效（后面的字段索引失效）

有一个联合索引涉及到三个字段，顺序分别为：A、B、C。对于最左前缀法则指的是，查询时，最左变的列，也就是 A 必须存在，否则索引全部失效，而且中间不能跳过某一列，否则该列后面的字段索引将失效

索引生效

explain select * from table_name where A = *** and B = *** and C = ***;

explain select * from table_name where A = *** and B = ***;

explain select * from table_name where A = ***;

索引失效

explain select * from table_name where A = *** and C = ***;

explain select * from table_name where C = ***;

查询时存在 A 字段，最左边的列是存在的，索引满足最左前缀法则的基本条件。但如果跳过了 B ，后面的列索引是不会使用的，也就是索引部分生效。

explain select * from table_name where A = *** and C = ***;

最左前缀法则中指的最左边的列，是指在查询时，联合索引的最左边的字段（即是第一个字段）必须存在，与我们编写SQL时，条件编写的先后顺序无关

2 范围查询

在业务允许的情况下，尽可能的使用类似于 >= 或 <= 这类的范围查询，而避免使用 > 或 <

因为联合索引中，出现范围查询（ > , < ），范围查询右侧的列索引失效

3 索引失效情况

索引列使用函数运算符操作之后，索引失效
字符串类型字段使用时，不加引号，索引将失效
尾部模糊匹配，索引不会失效；如果是头部模糊匹配，索引失效
or连接的条件，左右两侧字段中有一侧字段没有索引时，索引才会生效
MySQL评估使用索引比全表更慢，则不使用索引（评估条件是什么？）

4 覆盖索引

尽量使用覆盖索引，减少回表查询；覆盖索引是指查询使用了索引，并且需要返回的列，在该索引中已经全部能够找到。

回表查询：

先到二级索引中查找数据，找到主键值，然后再到聚集索引中根据主键值，获取数据的方式，就称之为回表查询

SQL语句的执行计划中的 Extra

Extra	含义
Using where; Using Index	查找使用了索引，但是需要的数据都在索引列中能找到，所以不需要回表查询数据
Using index condition	查找使用了索引，但是需要回表查询数据

Q：

一张表, 有四个字段(id, username, password, status), 由于数据量大, 需要对以下SQL语句进行优化, 该如何进行才是最优方案:

select id,username,password from tb_user where username = 'itcast';

A：

针对于 username, password 建立联合索引, SQL 为: create index idx_user_name_pass on tb_user(username,password);

这样可以避免上述的SQL语句，在查询的过程中，出现回表查询。

5 前缀索引

当字段类型为字符串（varchar，text，longtext等）时，有时候需要索引很长的字符串，这会让索引变得很大，查询时，浪费大量的磁盘IO，影响查询效率；此时可以只将字符串的一部分前缀，建立索引，这样可以大大节约索引空间，从而提高索引效率

create index index_name on table_name(index_col_name(n));

6 单列索引和联合索引

单列索引：即一个索引只包含单个列
联合索引：即一个索引包含了多个列

在业务场景中，如果存在多个查询条件，考虑针对于查询字段建立索引时，建议建立联合索引，而非单列索引