干货！MySQL优化原理分析及优化方案总结

2401_84002271

于 2024-05-03 07:33:52 发布

阅读量683

点赞数 17

分类专栏：程序员文章标签： mysql android 数据库

本文链接：https://blog.csdn.net/2401_84002271/article/details/138408548

版权

程序员专栏收录该内容

205 篇文章 0 订阅

订阅专栏

当然查询缓存系统本身是非常复杂的，这里讨论的也只是很小的一部分，其他更深入的话题，比如：缓存是如何使用内存的？如何控制内存的碎片化？事务对查询缓存有何影响等等，读者可以自行阅读相关资料，这里权当抛砖引玉吧。

语法解析和预处理

MySQL通过关键字将SQL语句进行解析，并生成一颗对应的解析树。这个过程解析器主要通过语法规则来验证和解析。比如SQL中是否使用了错误的关键字或者关键字的顺序是否正确等等。预处理则会根据MySQL规则进一步检查解析树是否合法。比如检查要查询的数据表和数据列是否存在等等。

查询优化

经过前面的步骤生成的语法树被认为是合法的了，并且由优化器将其转化成查询计划。多数情况下，一条查询可以有很多种执行方式，最后都返回相应的结果。优化器的作用就是找到这其中最好的执行计划。

MySQL使用基于成本的优化器，它尝试预测一个查询使用某种执行计划时的成本，并选择其中成本最小的一个。在MySQL可以通过查询当前会话的 last_query_cost的值来得到其计算当前查询的成本。

mysql> select * from t_message limit 10;…省略结果集mysql> show status like ‘last_query_cost’;±----------------±------------+| Variable_name | Value |±----------------±------------+| Last_query_cost | 6391.799000 |±----------------±------------+

示例中的结果表示优化器认为大概需要做6391个数据页的随机查找才能完成上面的查询。这个结果是根据一些列的统计信息计算得来的，这些统计信息包括：每张表或者索引的页面个数、索引的基数、索引和数据行的长度、索引的分布情况等等。

有非常多的原因会导致MySQL选择错误的执行计划，比如统计信息不准确、不会考虑不受其控制的操作成本（用户自定义函数、存储过程）、MySQL认为的最优跟我们想的不一样（我们希望执行时间尽可能短，但MySQL值选择它认为成本小的，但成本小并不意味着执行时间短）等等。

MySQL的查询优化器是一个非常复杂的部件，它使用了非常多的优化策略来生成一个最优的执行计划：

重新定义表的关联顺序（多张表关联查询时，并不一定按照SQL中指定的顺序进行，但有一些技巧可以指定关联顺序）
优化 MIN()和 MAX()函数（找某列的最小值，如果该列有索引，只需要查找B+Tree索引最左端，反之则可以找到最大值，具体原理见下文）
提前终止查询（比如：使用Limit时，查找到满足数量的结果集后会立即终止查询）
优化排序（在老版本MySQL会使用两次传输排序，即先读取行指针和需要排序的字段在内存中对其排序，然后再根据排序结果去读取数据行，而新版本采用的是单次传输排序，也就是一次读取所有的数据行，然后根据给定的列排序。对于I/O密集型应用，效率会高很多）

随着MySQL的不断发展，优化器使用的优化策略也在不断的进化，这里仅仅介绍几个非常常用且容易理解的优化策略，其他的优化策略，大家自行查阅吧。

查询执行引擎

在完成解析和优化阶段以后，MySQL会生成对应的执行计划，查询执行引擎根据执行计划给出的指令逐步执行得出结果。整个执行过程的大部分操作均是通过调用存储引擎实现的接口来完成，这些接口被称为 handler API。查询过程中的每一张表由一个 handler实例表示。实际上，MySQL在查询优化阶段就为每一张表创建了一个 handler实例，优化器可以根据这些实例的接口来获取表的相关信息，包括表的所有列名、索引统计信息等。存储引擎接口提供了非常丰富的功能，但其底层仅有几十个接口，这些接口像搭积木一样完成了一次查询的大部分操作。

返回结果给客户端

查询执行的最后一个阶段就是将结果返回给客户端。即使查询不到数据，MySQL仍然会返回这个查询的相关信息，比如改查询影响到的行数以及执行时间等等。

如果查询缓存被打开且这个查询可以被缓存，MySQL也会将结果存放到缓存中。

结果集返回客户端是一个增量且逐步返回的过程。有可能MySQL在生成第一条结果时，就开始向客户端逐步返回结果集了。这样服务端就无须存储太多结果而消耗过多内存，也可以让客户端第一时间获得返回结果。需要注意的是，结果集中的每一行都会以一个满足①中所描述的通信协议的数据包发送，再通过TCP协议进行传输，在传输过程中，可能对MySQL的数据包进行缓存然后批量发送。

回头总结一下MySQL整个查询执行过程，总的来说分为6个步骤：

客户端向MySQL服务器发送一条查询请求
服务器首先检查查询缓存，如果命中缓存，则立刻返回存储在缓存中的结果。否则进入下一阶段
服务器进行SQL解析、预处理、再由优化器生成对应的执行计划
MySQL根据执行计划，调用存储引擎的API来执行查询
将结果返回给客户端，同时缓存查询结果

02 优化方案

1 优化建议

看了以上原理，想必你现在已经很清楚MySQL的运行原理了，接下来我将从一下这些方面对其进行优化。

SQL优化

我们需要注意这几点：先选择需要优化的SQL，一般都从Explain和Profile出发，永远用小结果集驱动大的结果集，在索引中完成排序，使用最小的Columns，使用最有效的过滤条件，避免复杂的JOIN和子查询。具体优化如下：

分析SQL执行频率

show status例如：分析读为主，还是写为主

定位效率低的SQL

慢查询日志定位-log-slow-queries = xxx（指定文件名）SHOW PROCESSLIST查看当前正在进行的线程，包括线程状态、是否锁表

分析SQL执行计划

explain "your sql"desc “your sql”- 部分参数分析select_type: SIMPLE 简单表，不使用表连接或子查询PRIMARY 主查询，即外层的查询UNION SUBQUER 子查询的第一个selecttype: ALL 全表扫描index 索引全扫描range 索引范围扫描ref 使用非唯一索引或唯一索引的前缀扫描eq_ref 类似ref，使用的索引是唯一索引const/system 单表中最多有一个匹配行NULL 不用访问表或者索引，直接得到结果

show profile 分析SQL

select @@have_profiling 是否支持select @@profiling 是否开启执行 "your sql"show profiles show profile block io for QUERY 17

索引优化

这里我从三个方面来分析，分别是类型，方法，创建：

示例如下：

索引的存储分类

B-TREE索引：常见，大部分都支持HASH索引：只有memory引擎支持R-TREE索引：空间索引是MyISAM的一个特殊索引类型，主要用于地理空间数据类型full-text索引：全文索引，MyISAM的一个特殊索引类型，innodb从5.6开始支持

索引的创建与删除

添加索引ALTER Table table_name ADD PRIMARY KEY（column）ALTER Table table_name ADD UNIQUE（column）ALTER Table table_name ADD INDEX（column）ALTER Table table_name ADD FULLTEXT（column）删除ALTER Table table_name drop index index_name

MySQL能使用索引的情况

匹配全值匹配值范围查询匹配最左前缀仅仅对索引进行查询（覆盖查询）匹配列前缀（添加前缀索引）部分精确+部分范围

不能使用索引的情况

以%开关的like查询数据类型出现隐式转换复合索引查询条件不包含最左部分使用索引仍比全表扫描慢用or分割开的条件

语句优化

定期优化表

optimize table table_name 合并表空间碎片，对MyISAM、BDB、INNODB有效如果提示不支持，可以用 mysql --skip-new 或者 mysql --safe-mode 来重启，以便让其他引擎支持

常用优化

尽量避免全表扫描，对where及orderby的列建立索引尽量避免where使用 != 或 <>尽量避免where子句用 or 连接条件乱用%导致全表扫描尽量避免where子句对字段进行表达式操作尽量避免where子句对字段进行函数操作覆盖查询，返回需要的字段优化嵌套查询，关联查询优于子查询组合索引或复合索引，最左索引原则用exist代替in当索引列有大量重复数据时，SQL查询可能不会去利用索引

JOIN的优化

JOIN原理

在mysql中使用Nested Loop Join来实现join； A JOIN B：通过A表的结果集作为循环基础，一条一条的通过结果集中的数据作为过滤条件到下一个表中查询数据，然后合并结果

JOIN优化原则

1，尽可能减少Join 语句中的Nested Loop 的循环总次数，用小结果集驱动大结果集；2，优先优化Nested Loop 的内层循环；3，保证Join 语句中被驱动表上Join 条件字段已经被索引；4，扩大join buffer的大小；

数据库对象优化

优化表数据类型

PROCEDURE ANALYSE (16,256) 排除多于16个，大于256字节的ENUM建议"your sql" PROCEDURE ANALYSE ()

表拆分

垂直拆分针对某些列常用、某些列不常用水平拆分表很大表中的数据有独立性，能简单分类需要在表存放多种介质

反范式

增加冗余列、增加派生列、重新组表和分割表