2024年超详细图解!【MySQL进阶篇】MySQL索引原理,Java开发自学技巧

最后

金三银四马上就到了,希望大家能好好学习一下这些技术点

学习视频:

大厂面试真题:

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友,可以点击这里获取

二分查找法

二分查找法也叫作折半查找法,它是在有序数组中查找指定数据的搜索算法。它的优点是等值查询、范

围查询性能优秀,缺点是更新数据、新增数据、删除数据维护成本高。

  • 首先定位left和right两个指针

  • 计算(left+right)/2

  • 判断除2后索引位置值与目标值的大小比对

  • 索引位置值大于目标值就-1,right移动;如果小于目标值就+1,left移动

举个例子,下面的有序数组有17 个值,查找的目标值是7,过程如下:

第一次查找

img

第二次查找

img

第三次查找

img

第四次查找

img

Hash结构

Hash底层实现是由Hash表来实现的,是根据键值 <key,value> 存储数据的结构。非常适合根据key查找

value值,也就是单个key查询,或者说等值查询。其结构如下所示:

img

从上面结构可以看出,Hash索引可以方便的提供等值查询,但是对于范围查询就需要全表扫描了。

Hash索引在MySQL 中Hash结构主要应用在Memory原生的Hash索引 、InnoDB自适应哈希索引。

InnoDB提供的自适应哈希索引功能强大,接下来重点描述下InnoDB自适应哈希索引。

InnoDB自适应哈希索引是为了提升查询效率,InnoDB存储引擎会监控表上各个索引页的查询,当

InnoDB注意到某些索引值访问非常频繁时,会在内存中基于B+Tree索引再创建一个哈希索引,使得内

存中的 B+Tree 索引具备哈希索引的功能,即能够快速定值访问频繁访问的索引页。

InnoDB自适应哈希索引:在使用Hash索引访问时,一次性查找就能定位数据,等值查询效率要优于

B+Tree。

自适应哈希索引的建立使得InnoDB存储引擎能自动根据索引页访问的频率和模式自动地为某些热点页

建立哈希索引来加速访问。另外InnoDB自适应哈希索引的功能,用户只能选择开启或关闭功能,无法

进行人工干涉。

SQL

show engine innodb status \G;

show variables like ‘%innodb_adaptive%’;

B+Tree结构

MySQL数据库索引采用的是B+Tree结构,在B-Tree结构上做了优化改造。

B-Tree结构

  • 索引值和data数据分布在整棵树结构中

  • 每个节点可以存放多个索引值及对应的data数据

  • 树节点中的多个索引值从左到右升序排列

B树的搜索:从根节点开始,对节点内的索引值序列采用二分法查找,如果命中就结束查找。没有

命中会进入子节点重复查找过程,直到所对应的的节点指针为空,或已经是叶子节点了才结束。

B+Tree结构

  • 非叶子节点不存储data数据,只存储索引值,这样便于存储更多的索引值

  • 叶子节点包含了所有的索引值和data数据

  • 叶子节点用指针连接,提高区间的访问性能

相比B树,B+树进行范围查找时,只需要查找定位两个节点的索引值,然后利用叶子节点的指针进

行遍历即可。而B树需要遍历范围内所有的节点和数据,显然B+Tree效率高。

聚簇索引和辅助索引

簇索引和非聚簇索引:B+Tree的叶子节点存放主键索引值和行记录就属于聚簇索引;如果索引值和行

记录分开存放就属于非聚簇索引。

主键索引和辅助索引:B+Tree的叶子节点存放的是主键字段值就属于主键索引;如果存放的是非主键值

就属于辅助索引(二级索引)。

在InnoDB引擎中,主键索引采用的就是聚簇索引结构存储。

聚簇索引(聚集索引)

聚簇索引是一种数据存储方式,InnoDB的聚簇索引就是按照主键顺序构建 B+Tree结构。B+Tree

的叶子节点就是行记录,行记录和主键值紧凑地存储在一起。 这也意味着 InnoDB 的主键索引就

是数据表本身,它按主键顺序存放了整张表的数据,占用的空间就是整个表数据量的大小。通常说

的主键索引就是聚集索引。

InnoDB的表要求必须要有聚簇索引:

  • 如果表定义了主键,则主键索引就是聚簇索引

  • 如果表没有定义主键,则第一个非空unique列作为聚簇索引

  • 否则InnoDB会从建一个隐藏的row-id作为聚簇索引

辅助索引

InnoDB辅助索引,也叫作二级索引,是根据索引列构建 B+Tree结构。但在 B+Tree 的叶子节点中

只存了索引列和主键的信息。二级索引占用的空间会比聚簇索引小很多, 通常创建辅助索引就是

为了提升查询效率。一个表InnoDB只能创建一个聚簇索引,但可以创建多个辅助索引。

img

非聚簇索引

与InnoDB表存储不同,MyISAM数据表的索引文件和数据文件是分开的,被称为非聚簇索引结

构。

img

索引分析与优化


EXPLAIN

MySQL 提供了一个 EXPLAIN 命令,它可以对 SELECT 语句进行分析,并输出 SELECT 执行的详细信

息,供开发人员有针对性的优化。例如:

EXPLAIN SELECT * from user WHERE id < 3;

EXPLAIN 命令的输出内容大致如下:

select_type

表示查询的类型。常用的值如下:

  • SIMPLE : 表示查询语句不包含子查询或union

  • PRIMARY:表示此查询是最外层的查询

  • UNION:表示此查询是UNION的第二个或后续的查询

  • EXPLAIN SELECT * from user WHERE id < 3;

  • DEPENDENT UNION:UNION中的第二个或后续的查询语句,使用了外面查询结果

  • UNION RESULT:UNION的结果

  • SUBQUERY:SELECT子查询语句

  • DEPENDENT SUBQUERY:SELECT子查询语句依赖外层查询的结果。

最常见的查询类型是SIMPLE,表示我们的查询没有子查询也没用到UNION查询。

type

表示存储引擎查询数据时采用的方式。比较重要的一个属性,通过它可以判断出查询是全表扫描还

是基于索引的部分扫描。常用属性值如下,从上至下效率依次增强。

  • ALL:表示全表扫描,性能最差。

  • index:表示基于索引的全表扫描,先扫描索引再扫描全表数据。

  • range:表示使用索引范围查询。使用>、>=、<、<=、in等等。

  • ref:表示使用非唯一索引进行单值查询。

  • eq_ref:一般情况下出现在多表join查询,表示前面表的每一个记录,都只能匹配后面表的一

行结果。

  • const:表示使用主键或唯一索引做等值查询,常量查询。

  • NULL:表示不用访问表,速度最快。

possible_keys

表示查询时能够使用到的索引。注意并不一定会真正使用,显示的是索引名称。

key

表示查询时真正使用到的索引,显示的是索引名称。

rows

MySQL查询优化器会根据统计信息,估算SQL要查询到结果需要扫描多少行记录。原则上rows是

越少效率越高,可以直观的了解到SQL效率高低。

key_len

表示查询使用了索引的字节数量。可以判断是否全部使用了组合索引。

key_len的计算规则如下:

  • 字符串类型

字符串长度跟字符集有关:latin1=1、gbk=2、utf8=3、utf8mb4=4

char(n):n*字符集长度

varchar(n):n * 字符集长度 + 2字节

  • 数值类型

TINYINT:1个字节

SMALLINT:2个字节

MEDIUMINT:3个字节

INT、FLOAT:4个字节

BIGINT、DOUBLE:8个字节

  • 时间类型

DATE:3个字节

TIMESTAMP:4个字节

DATETIME:8个字节

  • 字段属性

NULL属性占用1个字节,如果一个字段设置了NOT NULL,则没有此项。

Extra

Extra表示很多额外的信息,各种操作会在Extra提示相关信息,常见几种如下:

  • Using where

表示查询需要通过索引回表查询数据。

  • Using index

表示查询需要通过索引,索引就可以满足所需数据。

  • Using filesort

表示查询出来的结果需要额外排序,数据量小在内存,大的话在磁盘,因此有Using filesort

建议优化。

  • Using temprorary

查询使用到了临时表,一般出现于去重、分组等操作。

回表查询

在之前介绍过,InnoDB索引有聚簇索引和辅助索引。聚簇索引的叶子节点存储行记录,InnoDB必须要

有,且只有一个。辅助索引的叶子节点存储的是主键值和索引字段值,通过辅助索引无法直接定位行记

录,通常情况下,需要扫码两遍索引树。先通过辅助索引定位主键值,然后再通过聚簇索引定位行记

录,这就叫做回表查询,它的性能比扫一遍索引树低。

总结:通过索引查询主键值,然后再去聚簇索引查询记录信息

覆盖索引

在SQL-Server官网的介绍如下:

=

在MySQL官网,类似的说法出现在explain查询计划优化章节,即explain的输出结果Extra字段为Using

index时,能够触发索引覆盖。

不管是SQL-Server官网,还是MySQL官网,都表达了:**只需要在一棵索引树上就能获取SQL所需的所

**有列数据,无需回表,速度更快,这就叫做索引覆盖。

实现索引覆盖最常见的方法就是:将被查询的字段,建立到组合索引。

最左前缀原则

复合索引使用时遵循最左前缀原则,最左前缀顾名思义,就是最左优先,即查询中使用到最左边的列,

那么查询就会使用到索引,如果从索引的第二列开始查找,索引将失效。

LIKE查询

面试题:MySQL在使用like模糊查询时,索引能不能起作用?

回答:MySQL在使用Like模糊查询时,索引是可以被使用的,只有把%字符写在后面才会使用到索引。

SQL

select * from user where name like ‘%o%’; //不起作用

select * from user where name like ‘o%’; //起作用

select * from user where name like ‘%o’; //不起作用

NULL查询

面试题:如果MySQL表的某一列含有NULL值,那么包含该列的索引是否有效?

对MySQL来说,NULL是一个特殊的值,从概念上讲,NULL意味着“一个未知值”,它的处理方式与其他

值有些不同。比如:不能使用=,<,>这样的运算符,对NULL做算术运算的结果都是NULL,count时

不会包括NULL行等,NULL比空字符串需要更多的存储空间等。

“NULL columns require additional space in the row to record whether their values

are NULL. For MyISAM tables, each NULL column takes one bit extra, rounded up to

the nearest byte.”

NULL列需要增加额外空间来记录其值是否为NULL。对于MyISAM表,每一个空列额外占用一位,四舍

五入到最接近的字节。

虽然MySQL可以在含有NULL的列上使用索引,但NULL和其他数据还是有区别的,不建议列上允许为

NULL。最好设置NOT NULL,并给一个默认值,比如0和 ‘’ 空字符串等,如果是datetime类型,也可以

设置系统当前时间或某个固定的特殊值,例如’1970-01-01 00:00:00’。

索引与排序

MySQL查询支持filesort和index两种方式的排序,filesort是先把结果查出,然后在缓存或磁盘进行排序

操作,效率较低。使用index是指利用索引自动实现排序,不需另做排序操作,效率会比较高。

filesort有两种排序算法:双路排序单路排序

双路排序:需要两次磁盘扫描读取,最终得到用户数据。第一次将排序字段读取出来,然后排序;第二

次去读取其他字段数据。

单路排序:从磁盘查询所需的所有列数据,然后在内存排序将结果返回。如果查询数据超出缓存

sort_buffer,会导致多次磁盘读取操作,并创建临时表,最后产生了多次IO,反而会增加负担。解决方

案:少使用select *;增加sort_buffer_size容量和max_length_for_sort_data容量。

如果我们Explain分析SQL,结果中Extra属性显示Using filesort,表示使用了filesort排序方式,需要优

化。如果Extra属性显示Using index时,表示覆盖索引,也表示所有操作在索引上完成,也可以使用

index排序方式,建议大家尽可能采用覆盖索引。

  • 以下几种情况,会使用index方式的排序。

  • ORDER BY 子句索引列组合满足索引最左前列

explain select id from user order by id; //对应(id)、(id,name)索引有效

  • WHERE子句+ORDER BY子句索引列组合满足索引最左前列

explain select id from user where age=18 order by name; //对应(age,name)索引

  • 以下几种情况,会使用filesort方式的排序。

  • 对索引列同时使用了ASC和DESC

explain select id from user order by age asc,name desc; //对应(age,name)索引

  • WHERE子句和ORDER BY子句满足最左前缀,但where子句使用了范围查询(例如>、<、in

等)

explain select id from user where age>10 order by name; //对应(age,name)索引

  • ORDER BY或者WHERE+ORDER BY索引列没有满足索引最左前列

explain select id from user order by name; //对应(age,name)索引

  • 使用了不同的索引,MySQL每次只采用一个索引,ORDER BY涉及了两个索引

explain select id from user order by name,age; //对应(name)、(age)两个索引

  • WHERE子句与ORDER BY子句,使用了不同的索引

explain select id from user where name='tom' order by age; //对应(name)、(age)索引

  • WHERE子句或者ORDER BY子句中索引列使用了表达式,包括函数表达式

explain select id from user order by abs(age); //对应(age)索引

查询优化


慢查询定位

开启慢查询日志

查看 MySQL 数据库是否开启了慢查询日志和慢查询日志文件的存储位置的命令如下:

SHOW VARIABLES LIKE 'slow_query_log%'

通过如下命令开启慢查询日志:

SQL

`SET global slow_query_log = ON;

SET global slow_query_log_file = ‘OAK-slow.log’;

SET global log_queries_not_using_indexes = ON;

SET long_query_time = 10;`

  • long_query_time:指定慢查询的阀值,单位秒。如果SQL执行时间超过阀值,就属于慢查询

记录到日志文件中。

  • log_queries_not_using_indexes:表示会记录没有使用索引的查询SQL。前提是slow_query_log

的值为ON,否则不会奏效。

查看慢查询日志

文本方式查看

直接使用文本编辑器打开slow.log日志即可。

  • time:日志记录的时间

  • User@Host:执行的用户及主机

  • Query_time:执行的时间

  • Lock_time:锁表时间

  • Rows_sent:发送给请求方的记录数,结果数量

  • Rows_examined:语句扫描的记录条数

  • SET timestamp:语句执行的时间点

  • select…:执行的具体的SQL语句

使用mysqldumpslow查看

MySQL 提供了一个慢查询日志分析工具mysqldumpslow,可以通过该工具分析慢查询日志

内容。

在 MySQL bin目录下执行下面命令可以查看该使用格式。

perl mysqldumpslow.pl --help

运行如下命令查看慢查询日志信息:

perl mysqldumpslow.pl -t 5 -s at C:\ProgramData\MySQL\Data\OAK-slow.log

除了使用mysqldumpslow工具,也可以使用第三方分析工具,比如pt-query-digest、

mysqlsla等。

慢查询优化

索引和慢查询

  • 如何判断是否为慢查询?

MySQL判断一条语句是否为慢查询语句,主要依据SQL语句的执行时间,它把当前语句的执

行时间跟 long_query_time 参数做比较,如果语句的执行时间 > long_query_time,就会把

这条执行语句记录到慢查询日志里面。long_query_time 参数的默认值是 10s,该参数值可

以根据自己的业务需要进行调整。

  • 如何判断是否应用了索引?

SQL语句是否使用了索引,可根据SQL语句执行过程中有没有用到表的索引,可通过 explain

命令分析查看,检查结果中的 key 值,是否为NULL。

  • 应用了索引是否一定快?

最后

我还为大家准备了一套体系化的架构师学习资料包以及BAT面试资料,供大家参考及学习

已经将知识体系整理好(源码,笔记,PPT,学习视频)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友,可以点击这里获取

)慢查询优化

索引和慢查询

  • 如何判断是否为慢查询?

MySQL判断一条语句是否为慢查询语句,主要依据SQL语句的执行时间,它把当前语句的执

行时间跟 long_query_time 参数做比较,如果语句的执行时间 > long_query_time,就会把

这条执行语句记录到慢查询日志里面。long_query_time 参数的默认值是 10s,该参数值可

以根据自己的业务需要进行调整。

  • 如何判断是否应用了索引?

SQL语句是否使用了索引,可根据SQL语句执行过程中有没有用到表的索引,可通过 explain

命令分析查看,检查结果中的 key 值,是否为NULL。

  • 应用了索引是否一定快?

最后

我还为大家准备了一套体系化的架构师学习资料包以及BAT面试资料,供大家参考及学习

已经将知识体系整理好(源码,笔记,PPT,学习视频)

[外链图片转存中…(img-5x8o5fBx-1715269884433)]

[外链图片转存中…(img-OjR46T5k-1715269884433)]

[外链图片转存中…(img-n12X6ZVE-1715269884433)]

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友,可以点击这里获取

  • 17
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值