【MySQL】索引+SQL优化-CSDN博客

本文链接：https://blog.csdn.net/m0_74284814/article/details/132788787

文章目录

一、索引
1. 索引概述
2. 索引结构
2.1 概述
2.2 二叉树
2.3 B-Tree(多路平衡查找树)
2.4 B+Tree
2.5 Hash

3. 索引分类
4. 索引语法
5. 索引使用
5.1 最左前缀法则
5.2 范围查询
5.3 索引列运算
5.4 字符串不加引号
5.5 模糊查询
5.6 or连接的条件
5.7 数据分步影响
5.8 SQL提示
5.9 覆盖索引
5.10 前缀索引
5.11 单列索引与联合索引

6. 索引设计原则

二、SQL优化
1. insert优化
2. 主键优化
3. order by优化
4. group by优化
5. limit优化
6. count优化
7. update优化

一、索引

1. 索引概述

索引（index）是帮助MySQL高效获取数据的数据结构(有序)。在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法，这种数据结构就是索引。

优势	劣势
提高数据检索的效率,降低数据库的IO成本	索引列也是要占用空间的
通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗	索引大大提高了查询效率,同时也降低更新表的速度,如对表进行INSERT/UPDATE/DELETE时,效率降低

2. 索引结构

2.1 概述

MySQL的索引是在存储引擎层实现的,不同的存储引擎有不同的结构,主要包含以下几种:

索引结构	描述
B+Tree索引	最常见的索引类型,大部分引擎都支持B+树索引
Hash索引	底层数据结构是用哈希表实现的,只有精准匹配索引列才有效,不支持范围查询
R-tree(空间索引)	空间索引是MyISAM引擎的一个特殊索引类型,主要用于地理空间数据类型,通常使用较少
Full-text(全文索引)	是一种通过建立倒排索引,快速匹配文档的方式.类似于Lucene,Solr,ES

不同的存储引擎对于索引结构的支持情况
在这里插入图片描述

我们平常所说的索引，如果没有特别指明，都是指B+树结构组织的索引。

2.2 二叉树

在这里插入图片描述

二叉树缺点:顺序插入时,会形成一个链表,查询性能大大降低.大数据量情况下,层级较深,检索速度慢
红黑树:大数据量情况下,层级较深,检索速度慢

2.3 B-Tree(多路平衡查找树)

B树是一种多叉路衡查找树，相对于二叉树，B树每个节点可以有多个分支，即多叉。以一颗最大度数（max-degree）为5(5阶)的b-tree为例，那这个B树每个节点最多存储4个key，5个指针：
在这里插入图片描述

注意:

数据就是key, 指针1<20; 20<指针2<30; 30<指针3<62; 62<指针4<89; 指针5>89
树的度数指的是一个节点的子节点个数

数据结构可视化网站—>可视化

2.4 B+Tree

以一颗最大度数(max-degree)为4(4阶)的B+Tree树为例:
在这里插入图片描述

绿色框框起来的部分，是索引部分，仅仅起到索引数据的作用，不存储数据。
红色框框起来的部分，是数据存储部分，在其叶子节点中要存储具体的数据。

MySQL数据库中的B+Tree
MySQL索引数据结构对经典的B+Tree进行了优化.在原B+tree的基础上,增加了一个指向相邻叶子节点的链表指针,就形成了带有顺序指针的B+Tree,提高区间访问的性能

非叶子节点(除了最下面一排的上面黄色部分的结构)只是起到索引的作用
数据的存储在叶子节点(最下面的一排)当中

2.5 Hash

哈希索引就是采用一定的hash算法,将键值换成新的hash值,映射到对应的槽位上,然后存储在hash表中，如果两个(或多个)简直,映射到一个相同的槽位上,他们就产生了hash冲突(也叫hash碰撞),可以通过链表来解决

下图示例说明

id是主键,我们为name字段创建hash索引的数据结构
先操作计算出表中每一行数据的hash值,然后再拿到name字段的所有值,通过内部的哈希函数来计算每一个name值落在哈希表的槽位上

hash索引特点

hash索引只能用于对等比较(= , in),不支持范围查询 (between , > , < , …)
无法利用索引完成排序操作
查询效率高,通常只需要一次检索就可以了,效率通常要高于B+Tree索引
在MySQL中,支持hash索引的是Memory引擎,而InnoDB中具有自适应hash功能,hash索引是存储引擎根据B+Tree索引在指定条件下自动构建的。

为什么InnoDB存储引擎选择使用B+Tree索引结构?

相对于二叉树,层级更少,搜索效率高
对于B-Tree树,无论是叶子节点还是非叶子节点,都要保存数据,这样会导致一页中存储的键值减少,指针跟着减少,要同样保存大量数据,只能增加树的高度,导致性能降低
相对hash索引,B+Tree支持范围匹配及排序操作

3. 索引分类

分类	含义	特点	关键字
主键索引	针对表中主键创建的索引	默认自动创建，只能有一个	Primary
唯一索引	避免同一个表中某数据列中的值重复	可以有多个	UNIQUE
常规索引	快速定位特定数据	可以有多个
全文索引	全文索引查找的是文本中的关键词，而不是比较索引中的值	可以有多个	FULLTEXT

在InnoDB存储引擎中，根据索引的存储形式，又可以分为以下两种：
在这里插入图片描述

聚集索引选取规则:

如果存在主键，主键索引就是聚集索引。
如果不存在主键，将使用第一个唯一（UNIQUE）索引作为聚集索引。
如果表没有主键，或没有合适的唯一索引，则InnoDB会自动生成一个rowid作为隐藏的聚集索引。

聚集索引的叶子节点挂的是表中这一行的数据
二级索引的叶子节点挂的是表中的id值
在这里插入图片描述

回表查询：分析select * from user where name=‘Arm’;的执行流程首先经过二级索引，找到id的值10，将id=10，通过聚集索引，找到对应的行数据。
在这里插入图片描述

4. 索引语法

创建索引

create [unique|fulltext] index 索引名 on 表名 (字段名1，字段名2，....);

-- 如果只有一个字段作为索引，叫单列索引
-- 如果有多个字段作为索引，叫联合索引（组合索引）

查看索引

show index from 表名;

删除索引

drop index 索引名 on 表名;

案例

-- name字段为姓名字段，该字段的值有可能会重复，为该字段创建索引
create index idx_user_name on tb_user (name);
-- phone手机号字段的值，是非空，且唯一的，为该字段创建唯一索引
create unique index idx_user_phone on tb_user (phone);
-- 为profession、age、status创建联合索引
create index idx_user_pro_age_status on tb_user (profession,age,status);
-- 为Email建立合适的索引来提高查询效率
create index idx_user_email on tb_user (email);
-- 删除索引
drop index idx_user_email on tb_user;

5. 索引使用

5.1 最左前缀法则

如果索引了多列（联合索引），要遵守最左前缀法则。
最左前缀法则指的是查询从索引的最左列开始，并且不跳过索引中的列。
如果跳跃某一列，索引将部分失效（后面的字段索引失效）。
联合索引中，如果查询的没有最左的索引字段列，那么索引失效

-- 创建了一个联合索引
create index idx_user_pro_age_sta on tb_user (profession, age, status);

explain select * from tb_user where profession='软件工程' and age =31 and status ='0';
explain select * from tb_user where profession='软件工程' and age =31;
explain select * from tb_user where profession='软件工程';

-- 下面是失去了最左的联合索引的列（失去了 profession='软件工程' ）
expalin select * from tb_user where age =31 and status ='0';
expalin select * from tb_user where status = '0';

查看第一条的执行计划
在这里插入图片描述

查看后续的执行计划
在这里插入图片描述

部分索引失效的案例说明
在这里插入图片描述

最左前缀法则和实际SQL放的位置无关，只在乎是否存在
在这里插入图片描述

5.2 范围查询

联合索引中，出现范围查询（>,<），范围查询右侧的列索引失效

explain select * from tb_user where profession='软件工程' and age>30 and status='0';
explain select * from tb_user where profession='软件工程' and age>=30 and status='0';

在业务运行的情况下，尽量写成 >= 或者 <= 这样，索引才不会失效
在这里插入图片描述

5.3 索引列运算

不要在索引列上进行运算操作，索引将会失效

-- substring(截取的字段,从哪一位置开始,截取几位) sql中是字符是从1开始计算
expalin select * from tb_user where substring(phone,10,2)='15';

在这里插入图片描述

5.4 字符串不加引号

字符串类型字段使用时，不加引号，索引将失效

explain select * from tb_user where profession='软件工程' and age=31 and status=0;
explain select * from tb_user where phone='17799990015';

在这里插入图片描述

5.5 模糊查询

如果仅仅是尾部模糊匹配，索引不会失效。如果是头部模糊匹配，索引失效。
查询profession以软件为开头的数据
在这里插入图片描述

expalin select * from tb_user where profession like '软件%'; --索引正常
expalin select * from tb_user where profession like '%软件'; --索引失效
expalin select * from tb_user where profession like '%工%'; --索引失效

5.6 or连接的条件

用or分割开的条件，如果or前的条件中的列有索引，而后面的列中没有索引，那么涉及的索引都不会被用到。
如果or条件的左右两边的两个字段都有索引，那么可以使用到索引

下图由于age没有索引，所以即使id、phone有索引，索引也会失效。所以需要针对age也要建立索引
在这里插入图片描述

create index idx_user_age on tb_user(age);

在这里插入图片描述

5.7 数据分步影响

如果MySQL评估使用索引比全表更慢，则不使用索引。
在这里插入图片描述

如果表中 profession=null 的数据很少，会走索引，而 profession is not null走全表扫描
在这里插入图片描述

如果表中 profession=null 的数据很多，那么 profession is null 就不走索引，走全表扫描。而 profession is not null会走索引。
在这里插入图片描述

5.8 SQL提示

SQL提示，是优化数据库的一个重要手段，简单来说，就是在SQL语句中加入一些人为的提示来达到优化操作的目的。

user index ---- 指定【建议】使用哪个索引。至于使用与否，mysql还有评估
ignore index ---- 指定忽略哪个索引
force index ---- 指定强制使用哪个索引

expalin select * from tb_user use index(idx_user_pro) where profession='软件工程';
expalin select * from tb_user ignore index(idx_user_pro) where profession='软件工程';
expalin select * from tb_user force index(idx_user_pro) where profession='软件工程';

使用指定索引
在这里插入图片描述

5.9 覆盖索引

尽量使用覆盖索引（查询使用了索引，并且需要返回的列，在该索引中已经全部能够找到），减少 select * 写法

注意：

using index condition:查找使用了索引，但是需要回表查询数据
using where; using index: 查找使用了索引，但是需要的数据都在索引列中能找到，所以不需要回表查询数据

explain select id,profession from tb_user where profession='软件工程' and age=31 and status='0';
explain select id,profession,age,status from tb_user where profession='软件工程' and age=31 and status='0';

explain select id,profession,age,status,name from tb_user where profession='软件工程' and age=31 and status='0';
explain select * from tb_user where profession='软件工程' and age=31 and status='0';

在这里插入图片描述

5.10 前缀索引

当字段类型为字符串（varchar,text等）时，有时候需要索引很长的字符串，这会让索引变得很大，查询时，浪费大量的磁盘IO，影响查询效率。此时可以将字符串的一部分前缀，建立索引，这样可以大大节约索引空间，从而提高索引效率。

create index idx_xxx on tableName(column(n));

前缀长度可以根据索引的选择性来决定，而选择性是指不重复的索引值（基数）和数据表的记录总数的比值，索引选择性越高则查询效率越高，唯一索引的选择性是1,这是最好的索引选择性，性能也是最好的。

select count(distinct email)/count(*) from tb_user;

select count(distinct substring(email,1,5)) / count(*) from tb_user;

在这里插入图片描述

5.11 单列索引与联合索引

单列索引：即一个索引包含单个列
联合索引：即一个索引包含了多个列

在业务场景中，如果存在多个查询条件，考虑针对查询字段建立索引时，建议建立联合索引而非单列索引

explain select id,phone,name from tb_user where phone='17799990010' and name='韩信';

多条件联合查询时，mysql优化器会评估哪个字段的索引效率更高，会选择该索引完成本次查询

使用指定的联合索引之后性能分析，下面性能更高
在这里插入图片描述

6. 索引设计原则

针对于数据量较大，且查询比较频繁地表建立索引
针对于常作为查询（where）、排序（order by）、分组（group by）操作的字段建立索引
尽量选择区分度高的列作为索引，尽量建立唯一索引，区分度越高，使用索引的效率越高
如果是字符串类型的字段，字段长度较长，可以针对于字段的特点，建立前缀索引
尽量使用联合索引，减少单列索引，查询时，联合索引很多时候可以覆盖索引，节省存储空间，避免回表，提高查询效率
索引要控制索引的数量，索引并不是多多益善，索引越多，维护索引结构的代价也就越大，会影响增删改的效率
如果索引列不能存储NULL值，请在创建表时使用NOT NULL约束它。当优化器知道每列是否包含NULL值时，它可以更好的确定哪个索引最有效的用于查询

二、SQL优化

1. insert优化

批量插入

insert into tb_test values(),(),();

手动提交事务

start transaction;
insert into tb_test values (),(),();
insert into tb_test values (),(),();
insert into tb_test values (),(),();
commit;

主键顺序插入

主键乱序插入：0 1 9 21 88 2 4 15 89 5 7 3
主键顺序插入：1 2 3 4 5 7 8 9 15 21 88 89

大批量插入数据
如果一次性需要插入大批量数据，使用insert语句插入性能较低，此时可以使用MySQL数据库提供的load指令进行插入。操作如下
在这里插入图片描述

#客户端连接服务端时，加上参数 --local -infile
mysql --local-infile -u root -p
#设置全局参数local-infile为1，开启从本地加载文件导入数据的开关
set global local_infile=1;
#执行load指令将准备好的数据，加载到表结构中
# 文件名 表名 文件内容对应数据库表字段以什么作为隔开标志 每一行数据以什么标志作为换行
load data local infile '/root/sql1.log' into table `tb_user` fields terminated by ',' lines terminated by '\n';

2. 主键优化

数据组织方式
在InnoDB存储引擎中，表数据都是根据主键顺序组织存放的，这种存储方式的表称为索引组织表（index organized table IOT）
每一个黄色的区域叫页，绿色存储的是这一行的数据
在这里插入图片描述

表空间有许多个段存储着，段空间中有许多个区存储着，区空间（1M）中存储64个页（16K），页空间中存储着行数据，行空间中存储着字段信息
在这里插入图片描述

页分裂
页可以为空，也可以填充一般，也可以填充百分之百。每个页包含了2-N行数据（如果一行数据多大，会行溢出），根据主键排列。
在这里插入图片描述

页合并
当删除一行记录时，实际上记录并没有被物理删除，只是记录被标记(flaged)为删除并且他的空间变得允许被其他记录声明使用。当页中删除的记录达到MERGE_THRESHOLD（默认为页的50%），InnoDB会开始寻找最靠近的页（前或后）看看是否可以将两个页合并以优化空间使用。

MEGRE_THRESYHOLD:合并页的阈值，可以自己设置，在创建表或者创建索引时指定

在这里插入图片描述

主键设计原则

满足业务需求的情况下，尽量降低主键的长度
插入数据时，尽量选择顺序插入，选择使用AUTO_INCREMENT自增主键
尽量不要使用UUID做主键或者是其他自然主键，如身份证号
业务操作时，避免对主键的修改

3. order by优化

Using filesort：通过表的索引或全表扫描，读取满足条件的数据行，然后在排序缓冲区sort buffer中完成排序操作，不是通过索引直接返回排序结果的排序都叫 File Sort排序
Using index：通过有序索引顺序扫描直接返回有序数据，这种情况即为using index,不需要额外排序，操作效率高

总结：

根据排序字段建立合适的索引，多字段排序时，也遵循最左前缀法则
尽量使用覆盖索引
多字段排序，一个升序一个降序，此时需要注意联合索引在创建时的规则（ASC / DESC）
如果不可避免的出现filesort，大数据量排序时，可以适当增大排序缓冲区大小sort_buffer_size（默认256k）

4. group by优化

--删除掉目前的联合索引 idx_user_pro_age_sta
drop index idx_user_pro_age_sta on tb_user;

--执行分组操作，根据profession字段分组
explain select profession, count(*) from tb_user group by profession;

--创建索引
create index idx_user_pro_age_sta on tb_user(profession,age,status);

--执行分组操作，根据profession字段分组
explain select profession, count(*) from tb_user group by profession;

--执行分组操作，根据profession字段分组
explain select profession,count(*) from tb_user group by profession,age;

5. limit优化

limit 2000000,10 此时需要MySQL排序钱2000010记录，仅仅返回2000000–2000010的记录，其他记录丢弃，查询排序的代价非常大

优化思路：一般分页查询时，通过创建覆盖索引能够比较好地提高性能，可以通过覆盖索引加子查询形式进行优化

explain select * from tb_sku t, (select id from tb_sku order by id limit 2000000,10) a where t.id=a.id;

6. count优化

explain select count(*) from tb_user;

MyISAM引擎把一个表的总行数存在了磁盘上，因此执行count(*）的时候会直接返回这个数，效率很高
InnoDB引擎就比较麻烦，它执行count(*)的时候，需要把数据一行一行的从引擎里面读出来，然后累计计数。

优化思路：自己计数（或者使用redis，不过频繁修改也会影响性能）

count的几种用法

count()是一个聚合函数，对于返回的结果集，一行行的判断，如果count函数的参数不是NULL，累计值就加1，否则不加，最后返回累计值
用法：count(*)、count(主键)、count(字段)、count(1)

count(主键) InnoDB引擎会遍历整张表，把每一行的主键id值都取出来，返回给服务层。服务层拿到主键后，直接按行累加（主键不可能为null）
count(字段) 没有not null约束：InnoDB引擎会遍历整张表把每一行的字段值都取出来，返回给服务层，服务层判断是否为NULL，不为NULL，计数累加。
有not null约束：InnoDB引擎会遍历整张表把每一行的字段值都取出来，返回给服务层，直接按行进行累加。
count(1) InnoDB引擎遍历整张表，但不取值。服务层对于返回的每一行，放一个数字 1 进去，直接按行进行累加
count(*) InnoDB引擎并不会把全部字段取出来，而是专门做了游湖啊，不取值，服务层直接按行进行累加

按照效率排序的话，count(字段) < count(主键id) < count(1) ≈ count(*)

7. update优化

update student set no='2000100100' where id=1

update student set no='2000100105' where name='韦一笑';

MySQL使用的是InnoDB引擎。而InnoDB引擎的行锁是基于索引的基础上加的锁，也就是说有这个字段的索引才有这个字段的锁。如果update的时候，update的字段是没有索引的字段，那么此时行锁会升级为表锁。其他窗口进行事务的时候，将不能commit。要么update的字段添加索引，要么先把第一个update的事务提交其他的事务才能进行。