MySQL性能优化之了解索引及如何创建索引和优化索引

最新推荐文章于 2023-04-24 21:04:49 发布

范亚明

最新推荐文章于 2023-04-24 21:04:49 发布

阅读量264

点赞数

分类专栏：数据库开发工具使用项目文章标签： mysql 数据库

本文链接：https://blog.csdn.net/weixin_41588751/article/details/105605570

版权

开发工具使用同时被 3 个专栏收录

28 篇文章 0 订阅

订阅专栏

数据库

13 篇文章 0 订阅

订阅专栏

项目

11 篇文章 0 订阅

订阅专栏

一.MySQL系统架构

(1)逻辑模块组成

①.初始化模块
初始化模块就是在MySQLServer启动的时候，对整个系统做各种各样的初始化操作，比如各种buffer，cache结构的初始化和内存空间的申请，各种系统变量的初始化设定，各种存储引擎的初始化设置，等等。
②.核心API
核心API模块主要是为了提供一些需要非常高效的底层操作功能的优化实现，包括各种底层数据结构的实现，特殊算法的实现，字符串处理，数字处理等，小文件I/O，格式化输出，以及最重要的内存管理部分。
③.网络交互模块
底层网络交互模块抽象出底层网络交互所使用的接口api，实现底层网络数据的接收与发送，以方便其他各个模块调用，以及对这一部分的维护。所有源码都在vio文件夹下面。
④.Client&Server交互协议模块
任何C/S结构的软件系统，都肯定会有自己独有的信息交互协议，MySQL也不例外。MySQL 的Client&Server交互协议模块部分，实现了客户端与MySQL交互过程中的所有协议。当然这些协议都是建立在现有的OS和网络协议之上的，如TCP/IP以及UnixSocket。
⑤.用户模块
户模块所实现的功能，主要包括用户的登录连接权限控制和用户的授权管理。他就像MySQL的大门守卫一样，决定是否给来访者“开门”。
⑥.访问控制模块
造访客人进门了就可以想干嘛就干嘛么？为了安全考虑，肯定不能如此随意。这时候就需要访问控制模块实时监控客人的每一个动作，给不同的客人以不同的权限。访问控制模块实现的功能就是根据用户模块中各用户的授权信息，以及数据库自身特有的各种约束，来控制用户对数据的访问。用户模块和访问控制模块两者结合起来，组成了MySQL整个数据库系统的权限安全管理的功能。
⑦.连接管理、连接线程和线程管理
连接管理模块负责监听对MySQLServer的各种请求，接收连接请求，转发所有连接请求到线程管理模块。每一个连接上MySQLServer的客户端请求都会被分配（或创建）一个连接线程为其单独服务。而连接线程的主要工作就是负责MySQLServer与客户端的通信，接受客户端的命令请求，传递Server端的结果信息等。线程管理模块则负责管理维护这些连接线程。包括线程的创建，线程的cache等。
⑧.Query解析和转发模块
在MySQL中我们习惯将所有Client端发送给Server端的命令都称为query，在MySQL Server里面，连接线程接收到客户端的一个Query后，会直接将该query传递给专门负责将各种Query进行分类然后转发给各个对应的处理模块，这个模块就是query解析和转发模块。其主要工作就是将query语句进行语义和语法的分析，然后按照不同的操作类型进行分类，然后做出针对性的转发。
⑨.QueryCache模块
QueryCache模块在MySQL中是一个非常重要的模块，他的主要功能是将客户端提交给MySQL的Select类query请求的返回结果集cache到内存中，与该query的一个hash值做一个对应。该Query所取数据的基表发生任何数据的变化之后，MySQL会自动使该query的Cache失效。在读写比例非常高的应用系统中，QueryCache对性能的提高是非常显著的。当然它对内存的消耗也是非常大的。
⑩.Query优化器模块
Query优化器，顾名思义，就是优化客户端请求的query，根据客户端请求的query语句，和数据库中的一些统计信息，在一系列算法的基础上进行分析，得出一个最优的策略，告诉后面的程序如何取得这个query语句的结果。
11.表变更管理模块
表变更管理模块主要是负责完成一些DML和DDL的query，如：update，delte，insert，createtable，altertable等语句的处理。
12.表维护模块
表的状态检查，错误修复，以及优化和分析等工作都是表维护模块需要做的事情。
13.系统状态管理模块
系统状态管理模块负责在客户端请求系统状态的时候，将各种状态数据返回给用户，像DBA常用的各种showstatus命令，showvariables命令等，所得到的结果都是由这个模块返回的。
14.表管理器
这个模块从名字上看来很容易和上面的表变更和表维护模块相混淆，但是其功能与变更及维护模块却完全不同。大家知道，每一个MySQL的表都有一个表的定义文件，也就是*.frm 文件。表管理器的工作主要就是维护这些文件，以及一个cache，该cache中的主要内容是各个表的结构信息。此外它还维护table级别的锁管理。
15.日志记录模块
日志记录模块主要负责整个系统级别的逻辑层的日志的记录，包括errorlog，binary log，slowquerylog等。
16.复制模块
复制模块又可分为Master模块和Slave模块两部分，Master模块主要负责在Replication环境中读取Master端的binary日志，以及与Slave端的I/O线程交互等工作。Slave模块比Master模块所要做的事情稍多一些，在系统中主要体现在两个线程上面。一个是负责从Master请求和接受binary日志，并写入本地relaylog中的I/O线程。另外一个是负责从relaylog中读取相关日志事件，然后解析成可以在Slave端正确执行并得到和Master端完全相同的结果的命令并再交给Slave执行的SQL线程。
17.存储引擎接口模块
存储引擎接口模块可以说是MySQL数据库中最有特色的一点了。目前各种数据库产品中，基本上只有MySQL可以实现其底层数据存储引擎的插件式管理。这个模块实际上只是一个抽象类，但正是因为它成功地将各种数据处理高度抽象化，才成就了今天MySQL可插拔存储引擎的特色。

(2).各模块工作配合
在这里插入图片描述
当我们执行启动 MySQL 命令之后，MySQL 的初始化模块就从系统配置文件中读取系统参数和命令行参数，并按照参数来初始化整个系统，如申请并分配 buffer，初始化全局变量以及各种结构等。同时各个存储引擎也被启动，并进行各自的初始化工作。当整个系统初始化结束后，由连接管理模块接手。连接管理模块会启动处理客户端连接请求的监听程序，包括 tcp/ip 的网络监听，还有 unix 的 socket。这时候，MySQL Server 就基本启动完成，准备好接受客户端请求了。
当连接管理模块监听到客户端的连接请求（借助网络交互模块的相关功能），双方通过Client & Server 交互协议模块所定义的协议“寒暄”几句之后，连接管理模块就会将连接请求转发给线程管理模块，去请求一个连接线程。线程管理模块马上又会将控制交给连接线程模块，告诉连接线程模块：现在我这边有连接请求过来了，需要建立连接，你赶快处理一下。连接线程模块在接到连接请求后，首先会检查当前连接线程池中是否有被 cache 的空闲连接线程，如果有，就取出一个和客户端请求连接上，如果没有空闲的连接线程，则建立一个新的连接线程与客户端请求连接。当然，连接线程模块并不是在收到连接请求后马上就会取出一个连接线程连和客户端连接，而是首先通过调用用户模块进行授权检查，只有客户端请求通过了授权检查后，他才会将客户端请求和负责请求的连接线程连上。

在 MySQL 中，将客户端请求分为了两种类型：一种是 query，需要调用 Parser 也就是Query 解析和转发模块的解析才能够执行的请求；一种是 command，不需要调用 Parser 就可以直接执行的请求。如果我们的初始化配置中打开了 Full Query Logging 的功能，那么Query 解析与转发模块会调用日志记录模块将请求计入日志，不管是一个 Query 类型的请求还是一个 command 类型的请求，都会被记录进入日志，所以出于性能考虑，一般很少打开FullQuery Logging 的功能。

当客户端请求和连接线程“互换暗号（互通协议）”接上头之后，连接线程就开始处理客户端请求发送过来的各种命令（或者 query），接受相关请求。它将收到的 query 语句转给 Query 解析和转发模块，Query 解析器先对 Query 进行基本的语义和语法解析，然后根据命令类型的不同，有些会直接处理，有些会分发给其他模块来处理。

如果是一个 Query 类型的请求，会将控制权交给 Query 解析器。Query 解析器首先分析看是不是一个 select 类型的 query，如果是，则调用查询缓存模块，让它检查该 query 在query cache 中是否已经存在。如果有，则直接将 cache 中的数据返回给连接线程模块，然后通过与客户端的连接的线程将数据传输给客户端。如果不是一个可以被 cache 的 query类型，或者 cache 中没有该 query 的数据，那么 query 将被继续传回 query 解析器，让 query解析器进行相应处理，再通过 query 分发器分发给相关处理模块。

如果解析器解析结果是一条未被 cache 的 select 语句，则将控制权交给 Optimizer，也就是 Query 优化器模块，如果是 DML 或者是 DDL 语句，则会交给表变更管理模块，如果是一些更新统计信息、检测、修复和整理类的 query 则会交给表维护模块去处理，复制相关的query 则转交给复制模块去进行相应的处理，请求状态的 query 则转交给了状态收集报告模块。实际上表变更管理模块根据所对应的处理请求的不同，是分别由 insert 处理器、delete处理器、update 处理器、create 处理器，以及 alter 处理器这些小模块来负责不同的 DML和 DDL 的。

在各个模块收到 Query 解析与分发模块分发过来的请求后，首先会通过访问控制模块检查连接用户是否有访问目标表以及目标字段的权限，如果有，就会调用表管理模块请求相应的表，并获取对应的锁。表管理模块首先会查看该表是否已经存在于 table cache 中，如果已经打开则直接进行锁相关的处理，如果没有在 cache 中，则需要再打开表文件获取锁，然后将打开的表交给表变更管理模块。

当表变更管理模块“获取”打开的表之后，就会根据该表的相关 meta 信息，判断表的存储引擎类型和其他相关信息。根据表的存储引擎类型，提交请求给存储引擎接口模块，调用对应的存储引擎实现模块，进行相应处理。

不过，对于表变更管理模块来说，可见的仅是存储引擎接口模块所提供的一系列“标准”接口，底层存储引擎实现模块的具体实现，对于表变更管理模块来说是透明的。他只需要调用对应的接口，并指明表类型，接口模块会根据表类型调用正确的存储引擎来进行相应的处理。

当一条 query 或者一个 command 处理完成（成功或者失败）之后，控制权都会交还给连接线程模块。如果处理成功，则将处理结果（可能是一个 Result set，也可能是成功或者失败的标识）通过连接线程反馈给客户端。如果处理过程中发生错误，也会将相应的错误信息发送给客户端，然后连接线程模块会进行相应的清理工作，并继续等待后面的请求，重复上面提到的过程，或者完成客户端断开连接的请求。

二.常用引擎介绍

(1).MyISAM
MyISAM 存储引擎的表在数据库中，每一个表都被存放为三个以表名命名的物理文件。首先肯定会有任何存储引擎都不可缺少的存放表结构定义信息的.frm 文件，另外还有.MYD和.MYI 文件，分别存放了表的数据（.MYD）和索引数据（.MYI）。每个表都有且仅有这样三个文件做为 MyISAM 存储类型的表的存储，也就是说不管这个表有多少个索引，都是存放在同一个.MYI 文件中。

(2).Innodb
在物理存储方面，Innodb 存储引擎也和 MyISAM 不太一样，虽然也有.frm 文件来存放表结构定义相关的元数据，但是表数据和索引数据是存放在一起的。

二者对比(常见面试题):
在这里插入图片描述

三.理解索引

(1).什么是索引?
索引是对数据库表中一列或多列的值进行排序的一种结构，使用索引可快速访问数据库表中的特定信息。
**MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。
**
在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这种数据结构，就是索引。

(2).索引类型分类
1.B+TREE
使用平衡树实现索引，是mysql中使用最多的索引类型；在innodb中，存在两种索引类型，第一种是主键索引（primary key），在索引内容中直接保存数据的地址；第二种是其他索引，在索引内容中保存的是指向主键索引的引用；所以在使用innodb的时候，要尽量的使用主键索引，速度非常快；

在这里插入图片描述

2.Hash
把索引的值做hash运算，并存放到hash表中，使用较少，一般是memory引擎使用；因为使用hash表存储，按照常理，hash的性能比B-TREE效率高很多。
hash索引的缺点：
①，hash索引只能适用于精确的值比较，=，in，或者<>, 因为只需要经过一次算法即可找到相应的键值；
②，无法使用索引排序,因为原先是有序的键值，经过哈希算法后，有可能变成不连续的了，就没办法再利用索引完成范围查询检索；
③，组合hash索引无法使用部分索引,以及like ‘xxx%’ 这样的部分模糊查询（这种部分模糊查询，其实本质上也是范围查询）；
④，如果大量索引hash值相同，性能较低；
在这里插入图片描述
3.FullText:全文检索索引，效率低，限制多

4.R-Tree:针对空间数据索引，使用很少；

(3).MySQL索引实现
在MySQL中，索引属于存储引擎级别的概念，不同存储引擎对索引的实现方式是不同的，我们主要讨论MyISAM和InnoDB两个存储引擎的索引实现方式。

1.InnoDB和MyISAM引擎支持hash索引吗?
MySQL 最经常使用存储引擎 InnoDB 和 MyISAM 都不支持 Hash 索引，它们默认的索引都是 B-Tree。可是假设你在创建索引的时候定义其类型为 Hash，MySQL 并不会报错，并且你通过 SHOW CREATE TABLE 查看该索引也是 Hash，仅仅只是该索引实际上还是 B-Tree。
虽然常见存储引擎并不支持 Hash 索引，但 InnoDB 有另一种实现方法：自适应哈希索引。InnoDB 存储引擎会监控对表上索引的查找，如果观察到建立哈希索引可以带来速度的提升，则建立哈希索引。

2.MyISAM索引实现
MyISAM引擎使用B+Tree作为索引结构，叶节点的data域存放的是数据记录的地址。
①.主索引(Primary Key)
这里设表一共有三列，假设我们以Col1为主键，图解一个MyISAM表的主索引（Primary key）示意。可以看出MyISAM的索引文件仅仅保存数据记录的地址
在这里插入图片描述
②.辅助索引(Second Key)
在MyISAM中，主索引和辅助索引（Secondary key）在结构上没有任何区别，只是主索引要求key是唯一的，而辅助索引的key可以重复。如果我们在Col2上建立一个辅助索引，则此索引的结构如图所示
在这里插入图片描述
同样也是一颗B+Tree，data域保存数据记录的地址。因此，MyISAM中索引检索的算法为首先按照B+Tree搜索算法搜索索引，如果指定的Key存在，则取出其data域的值，然后以data域的值为地址，读取相应数据记录。
MyISAM的索引方式也叫做“非聚集”的，之所以这么称呼是为了与InnoDB的聚集索引区分。

3.InnoDB索引实现
①.主索引(Primary Key)
示意图中可以看到叶节点包含了完整的数据记录。这种索引叫做聚集索引。因为InnoDB的数据文件本身要按主键聚集，所以InnoDB要求表必须有主键（MyISAM可以没有），如果没有显式指定，则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键，如果不存在这种列，则MySQL自动为InnoDB表生成一个隐含字段作为主键，这个字段长度为6个字节，类型为长整形。
在这里插入图片描述
②.辅助索引(Second Key)
与MyISAM索引的不同是InnoDB的辅助索引data域存储相应记录主键的值而不是地址。换句话说，InnoDB的所有辅助索引都引用主键作为data域。

聚集索引这种实现方式使得按主键的搜索十分高效，但是辅助索引搜索需要检索两遍索引：首先检索辅助索引获得主键，然后用主键到主索引中检索获得记录。

4.什么是聚簇索引?
聚集索引是指数据库表行中数据的物理顺序与键值的逻辑（索引）顺序相同。
通俗讲:
聚簇索引：将数据存储与索引放到了一块，找到索引也就找到了数据(innodb)
非聚簇索引：将数据存储于索引分开结构，索引结构的叶子节点指向了数据的对应(myisam)

在这里插入图片描述

(4).索引的利弊
1，索引的好处：
①，提高表数据的检索效率；
②，如果排序的列是索引列，大大降低排序成本；
③，在分组操作中如果分组条件是索引列，也会提高效率；
2，索引的问题：索引需要额外的维护成本；

(5).如何创建索引?
1，较频繁的作为查询条件的字段应该创建索引；
2，唯一性太差的字段不适合单独创建索引，即使频繁作为查询条件；
3，更新非常频繁的字段不适合创建索引；
4，不会出现在WHERE 子句中的字段不该创建索引；

(6).单值索引和组合索引
1，单值索引即一列作为索引；
2，组合索引即多列创建为一个索引；

四.性能分析命令

(1).示例数据库
数据下载:https://github.com/datacharmer/test_db
MySQL官方文档中提供的示例数据库之一：employees。
使用命令导入数据:
mysql -uroot -padmin -t < employees.sql

(2).Explain命令
1.id
SELECT识别符。这是SELECT的查询序列号

2.select_type
SIMPLE:简单SELECT(不使用UNION或子查询)
PRIMARY:最外面的SELECT
UNION:UNION中的第二个或后面的SELECT语句
DEPENDENT UNION:UNION中的第二个或后面的SELECT语句,取决于外面的查询
UNION RESULT:UNION 的结果
SUBQUERY:子查询中的第一个SELECT
DEPENDENT SUBQUERY:子查询中的第一个SELECT,取决于外面的查询
DERIVED:导出表的SELECT(FROM子句的子查询)

3.table
输出的行所引用的表

4.type
联接类型。下面给出各种联接类型,按照从最佳类型到最坏类型进行排序:
system:表仅有一行(=系统表)。这是const联接类型的一个特例。
const:表最多有一个匹配行,它将在查询开始时被读取。因为仅有一行,在这行的列值可被优化器剩余部分认为是常数。const表很快,因为它们只读取一次!
eq_ref:对于每个来自于前面的表的行组合,从该表中读取一行。这可能是最好的联接类型,除了const类型。
类似ref，区别就在使用的索引是唯一索引，对于每个索引键值，表中只有一条记录匹配，简单来说，就是多表连接中使用primary key或者 unique key作为关联条件
ref:对于每个来自于前面的表的行组合,所有有匹配索引值的行将从这张表中读取。
ref_or_null:该联接类型如同ref,但是添加了MySQL可以专门搜索包含NULL值的行。
index_merge:该联接类型表示使用了索引合并优化方法。
unique_subquery:该类型替换了下面形式的IN子查询的ref: value IN (SELECT primary_key FROM single_table WHERE some_expr) unique_subquery是一个索引查找函数,可以完全替换子查询,效率更高。
index_subquery:该联接类型类似于unique_subquery。可以替换IN子查询,但只适合下列形式的子查询中的非唯一索引: value IN (SELECT key_column FROM single_table WHERE some_expr)
range:只检索给定范围的行,使用一个索引来选择行。
index:该联接类型与ALL相同,除了只有索引树被扫描。这通常比ALL快,因为索引文件通常比数据文件小。
ALL:对于每个来自于先前的表的行组合,进行完整的表扫描。

5.possible_keys
指出MySQL能使用哪个索引在该表中找到行

6.key
显示MySQL实际决定使用的键(索引)。如果没有选择索引,键是NULL。

7.key_len
显示MySQL决定使用的键长度。如果键是NULL,则长度为NULL。

8.ref
显示使用哪个列或常数与key一起从表中选择行。

9.rows
显示MySQL认为它执行查询时必须检查的行数。多行之间的数据相乘可以估算要处理的行数。

10.filtered
显示了通过条件过滤出的行数的百分比估计值。

11.Extra
该列包含MySQL解决查询的详细信息
Distinct:
MySQL发现第1个匹配行后,停止为当前的行组合搜索更多的行。
Not exists:
MySQL能够对查询进行LEFT JOIN优化,发现1个匹配LEFT JOIN标准的行后,不再为前面的的行组合在该表内检查更多的行。
range checked for each record (index map: #):
MySQL没有发现好的可以使用的索引,但发现如果来自前面的表的列值已知,可能部分索引可以使用。
Using filesort:
MySQL需要额外的一次传递,以找出如何按排序顺序检索行。
Using index:
从只使用索引树中的信息而不需要进一步搜索读取实际的行来检索表中的列信息。
Using temporary:
为了解决查询,MySQL需要创建一个临时表来容纳结果。
Using where:
WHERE 子句用于限制哪一个行匹配下一个表或发送到客户。
Using sort_union:
这些函数说明如何为index_merge联接类型合并索引扫描。
Using union:
这些函数说明如何为index_merge联接类型合并索引扫描。
Using intersect:
这些函数说明如何为index_merge联接类型合并索引扫描。
Using index for group-by:
类似于访问表的Using index方式,Using index for group-by表示MySQL发现了一个索引,可以用来查询GROUP BY或DISTINCT查询的所有列,而不要额外搜索硬盘访问实际的表。

(3).Profiling命令:

1.查看 profile 开启情况
select @@profiling;
0 表示关闭状态，1 表示开启。

2.启用 profile
set profiling = 1;
在连接关闭后，profiling 状态自动设置为关闭状态。

3.查看执行的 SQL 列表
show profiles;
该命令执行之前，需要执行其他 SQL 语句才有记录。

五.索引使用策略及优化

(1).最左前缀原理与相关优化
01.全列匹配:
MySQL的查询优化器会自动调整where子句的条件顺序以使用适合的索引

02.最左前缀匹配
当查询条件精确匹配索引的左边连续一个或几个列时，如或，所以可以被用到，但是只能用到一部分，即条件所组成的最左前缀.

03.查询条件没有指定索引第一列
由于不是最左前缀，索引这样的查询显然用不到索引。

04.复合索引中间某个条件未提供
查询条件用到了索引中列的精确匹配，但是中间某个条件未提供。

05.匹配某列的前缀字符串
此时可以用到索引，但是如果通配符不是只出现在末尾，则无法使用索引。~~（原文表述有误，如果通配符%不出现在开头，则可以用到索引，但根据具体情况不同可能只会用其中一个前缀）

06.范围查询
范围列可以用到索引（必须是最左前缀），但是范围列后面的列无法用到索引。同时，索引最多用于一个范围列，因此如果查询条件中有两个范围列则无法全用到索引。

07.查询条件中含有函数或表达式
如果查询条件中含有函数或表达式，则MySQL不会为这列使用索引（虽然某些在数学意义上可以使用）

(2).索引选择性与前缀索引
索引的选择性是指索引列中不同值的数目与表中记录数的比。如果一个表中有2000条记
录，表索引列有1980个不同的值，那么这个索引的选择性就是1980/2000=0.99。
一个索引的选择性越接近于1，这个索引的效率就越高。

(3).InnoDB的主键选择与插入优化
在使用InnoDB存储引擎时，如果没有特别的需要，请永远使用一个与业务无关的自增字段作为主键。

知道了InnoDB的索引实现后，就很容易明白为什么不建议使用过长的字段作为主键，因为所有辅助索引都引用主索引，过长的主索引会令辅助索引变得过大。再例如，用非单调的字段作为主键在InnoDB中不是个好主意，因为InnoDB数据文件本身是一颗B+Tree，非单调的主键会造成在插入新记录时数据文件为了维持B+Tree的特性而频繁的分裂调整，十分低效，而使用自增字段作为主键则是一个很好的选择。

因此，只要可以，请尽量在InnoDB上采用自增字段做主键。