mysql 索引优化

最新推荐文章于 2024-09-10 22:36:20 发布

努力中的小柴鸡

最新推荐文章于 2024-09-10 22:36:20 发布

阅读量3.8k

点赞数 2

分类专栏： mysql 文章标签： mysql 数据库

本文链接：https://blog.csdn.net/GuoWangWang11/article/details/125739859

版权

mysql 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、mysql索引建立原则

在这里插入图片描述

二、通过 EXPLAIN 分析 SQL 执行计划

可以知道以下内容：
在这里插入图片描述

假设现在我们使用 EXPLAIN 命令查看当前 SQL 是否使用了索引，先通过 SQL EXPLAIN 导出相应的执行计划如下：
在这里插入图片描述

下面对图示中的每一个字段进行一个说明：
id：每个执行计划都有一个 id，如果是一个联合查询，这里还将有多个 id。
关注点：id 的每个号码，表示一次独立的查询。一个 sql 的查询次数越少越好。
id相同：从上到下顺序执行。
在这里插入图片描述

id不同：id越大执行优先级越高，越先被执行。
在这里插入图片描述

id出现相同和不同：id 如果相同，可以认为是一组，从上往下顺序执行；在所有组中，id 值越大，优先级越高，衍生 = derived。
在这里插入图片描述

select_type：表示 SELECT 查询类型，常见的有 SIMPLE（普通查询，即没有联合查询、子查询）、PRIMARY（主查询）、UNION（UNION 中后面的查询）、SUBQUERY（子查询）等。
SIMPLE：普通查询，即没有联合查询、子查询
PRIMARY：查询中若包含任何复杂的子部分，最外层查询则被标记为 Primary，即：最后执行的查询
DERIVED：在FROM 语句中包含的子查询被标记为 DERIVED(衍生)，MySQL 会递归执行这些子查询, 把结果放在临时表里。
SUBQUERY：在SELECT或WHERE列表中包含了子查询。
DEPEDENT SUBQUERY：在SELECT或WHERE列表中包含了子查询,子查询基于外层
UNCACHEABLE SUBQUERY：无法使用缓存的子查询
UNION：若第二个SELECT出现在UNION之后，则被标记为UNION；若UNION包含在FROM子句的子查询中,外层SELECT将被标记为：DERIVED
UNION RESULT：从UNION表获取结果的SELECT

table：当前执行计划查询的表，如果给表起别名了，则显示别名信息。
partitions：访问的分区表信息。
type：表示从表中查询到行所执行的方式，查询方式是 SQL 优化中一个很重要的指标，结果值从好到差依次是：system > const > eq_ref > ref > range > index > ALL。一般来说，得保证查询至少达到range级别，最好能达到ref，否则就可能会出现性能问题。

system/const：表中只有一行数据匹配，此时根据索引查询一次就能找到对应的数据。如果是 B + 树索引，我们知道此时索引构造成了多个层级的树，当查询的索引在树的底层时，查询效率就越低。const 表示此时索引在第一层，只需访问一层便能得到数据。
eq_ref：唯一索引扫描，常见于多表连接中使用主键和唯一索引作为关联条件。
ref：非唯一索引扫描，返回匹配某个单独值的所有行，本质上也是一种索引访问，他返回所有匹配某个值的行，他可能找到多个符合条件的行，属于查找和扫描的混合体，还可见于唯一索引最左原则匹配扫描。
range：索引范围扫描，比如，<，>，between 等操作。
index：索引全表扫描，此时遍历整个索引树。
ALL：表示全表扫描，需要遍历全表来找到对应的行。

possible_keys：可能使用到的索引，显示一个或者多个，但不一定被查询实际使用。
key：实际使用到的索引，如果值为NULL，则没有用到索引。
key_len：当前使用的索引的长度，显示MySQL决定使用的键长度。若是键是NULL，长度就是NULL。文档提示特别注意这个值能够得出一个多重主键里mysql实际使用了哪一部分。
ref：显示哪一列被使用，如果可能的话，是一个常数，哪些列或者常亮被用于查找索引列上的值。
rows：查找到记录所扫描的行数。
filtered：查找到所需记录占总扫描记录数的比例。
Extra：额外的信息。
Using filesort Mysql会对数据使用一个外部的索引排序，而不是按照表中的索引进行排序，MySql无法使用索引进行排序的，被称为"文件类排序"。
Using temporary 使用了临时表保存中间结果，Mysql在对查询结果排序时使用临时表，常见于排序order by 或分组 group by。
Using index 表示相应的select操作中使用了覆盖索引(Covering Index)，避免访问了表的数据，效率不错，如果同时出现了User where 表明索引被用来执行索引键值的查找，如果没有出现Using where，表明索引用来读取数据，而非执行查找动作

二、索引失效

在这里插入图片描述

三、索引生效总结
创建index(a,b,c)，执行不同的sql产生的结果如下：

在这里插入图片描述

四、小表驱动大表

###4.1 IN 和 EXISTS的区别
EXISTS：SELECT … FROM table WHERE EXISTS(子查询)。
语法可以理解为：将主查询的数据，放到子查询中做条件验证，根据验证结果(true或false)来决定主查询的数据结果是否得以保留
提示1：EXISTS(子查询)只返回true或false，因此子查询中的select * 可以用 select 1或者 select ‘X’ 代替，官方说法实际执行时会忽略select清单，因此没有区别。
提示2：EXISTS(子查询)的实际执行过程可能进行了优化，而不是我们理解上的逐条对比，如有效率问题担忧，可进行实际检验以确定是否有效率问题。
提示3：EXISTS(子查询)可以用条件表达式、其他子查询、或者join来代替。最优的方式需要具体问题具体分析。

五、oder by排序优化

表存在复合索引 index(a,b)
ORDER BY 子句尽量使用Index方式排序，避免使用filesort方式排序。
尽可能在索引列上完成排序操作，遵照索引建立的最佳左前缀原则，ORDER BY默认是升序，如果select * from table order by a asc，b desc；会出现filesort方式排序，会降低搜索性能。Mysql支持二种排序方式，FileSort和Index，Index效率高，指Mysql扫描索引本身完成排序，Filesort效率低，修改成select * from table order by a desc，b desc，则索引生效，保证ORDER BY后使用的索引排序规则相同，即：一起升序，或者一起倒序。
如果不在索引列上排序，filesort有两种算法：双路排序和单路排序
双路排序：Mysql4.1之前的排序方式，会读2次磁盘
单路排序：读取磁盘一次，将数据加载到sort_buffer中，进行排序，弊端：如果取出的数据大于sort_buffer的容量，则每次只能读取sort_buffer容量大小的数据，创建tmp文件，进行多次读取，多次IO最后合并数据。
优化策略：增大sort_buffer_size、 max_length_for_sort_data的参数设置

六、show profiles

查看是否开启：show variables like ‘profiling%’;

在这里插入图片描述

开启：set profiling=on;

查看：show PROFILES;
在这里插入图片描述

查看详细信息：show PROFILE cpu,block io for QUERY id;
在这里插入图片描述

影响性能的问题
在这里插入图片描述

七、索引使用注意事项
1、对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。
2、应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where num is null可以在num上设置默认值0，确保表中num列没有null值，然后这样查询：select id from t where num=0
3、应尽量避免在 where 子句中使用!=或<>操作符，否则引擎将放弃使用索引而进行全表扫描。
4、应尽量避免在 where 子句中使用or 来连接条件，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where num=10 or num=20可以这样查询：select id from t where num=10 union all select id from t where num=20
5、in 和 not in 也要慎用，否则会导致全表扫描，如：select id from t where num in(1,2,3) 对于连续的数值，能用 between 就不要用 in 了：select id from t where num between 1 and 3
6、下面的查询也将导致全表扫描：select id from t where name like ‘李%’若要提高效率，可以考虑全文检索。
7、如果在 where 子句中使用参数，也会导致全表扫描。因为SQL只有在运行时才会解析局部变量，但优化程序不能将访问计划的选择推迟到运行时；它必须在编译时进行选择。然而，如果在编译时建立访问计划，变量的值还是未知的，因而无法作为索引选择的输入项。如下面语句将进行全表扫描：select id from t where num=@num可以改为强制查询使用索引：select id from t with(index(索引名)) where num=@num
8、应尽量避免在 where 子句中对字段进行表达式操作，这将导致引擎放弃使用索引而进行全表扫描。如：select id from t where num/2=100应改为:select id from t where num=1002
9、应尽量避免在where子句中对字段进行函数操作，这将导致引擎放弃使用索引而进行全表扫描。如：select id from t where substring(name,1,3)=‘abc’ ，name以abc开头的id，应改为:select id from t where name like ‘abc%’
10、不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算，否则系统将可能无法正确使用索引。
11、在使用索引字段作为条件时，如果该索引是复合索引，那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引，否则该索引将不会被使用，并且应尽可能的让字段顺序与索引顺序相一致。
12、不要写一些没有意义的查询，如需要生成一个空表结构：select col1,col2 into #t from t where 1=0 这类代码不会返回任何结果集，但是会消耗系统资源的，应改成这样：”’create table #t(…)”’
13、很多时候用 exists 代替 in 是一个好的选择：select num from a where num in(select num from b) 用下面的语句替换：select num from a where exists(select 1 from b where num=a.num)
14、并不是所有索引对查询都有效，SQL是根据表中数据来进行查询优化的，当索引列有大量数据重复时，SQL查询可能不会去利用索引，如一表中有字段sex，male、female几乎各一半，那么即使在sex上建了索引也对查询效率起不了作用。
15、索引并不是越多越好，索引固然可以提高相应的 select 的效率，但同时也降低了 insert 及 update 的效率，因为 insert 或 update 时有可能会重建索引，所以怎样建索引需要慎重考虑，视具体情况而定。一个表的索引数最好不要超过6个，若太多则应考虑一些不常使用到的列上建的索引是否有必要。
16、应尽可能的避免更新 clustered 索引数据列，因为 clustered 索引数据列的顺序就是表记录的物理存储顺序，一旦该列值改变将导致整个表记录的顺序的调整，会耗费相当大的资源。若应用系统需要频繁更新 clustered 索引数据列，那么需要考虑是否应将该索引建为 clustered 索引。
17、尽量使用数字型字段，若只含数值信息的字段尽量不要设计为字符型，这会降低查询和连接的性能，并会增加存储开销。这是因为引擎在处理查询和连接时会逐个比较字符串中每一个字符，而对于数字型而言只需要比较一次就够了。
18、尽可能的使用 varchar/nvarchar 代替 char/nchar ，因为首先变长字段存储空间小，可以节省存储空间，其次对于查询来说，在一个相对较小的字段内搜索效率显然要高些。
19、任何地方都不要使用 select * from t ，用具体的字段列表代替“”，不要返回用不到的任何字段。
20、尽量使用表变量来代替临时表。如果表变量包含大量数据，请注意索引非常有限（只有主键索引)
21、避免频繁创建和删除临时表，以减少系统表资源的消耗。
临时表并不是不可使用，适当地使用它们可以使某些例程更有效，例如，当需要重复引用大型表或常用表中的某个数据集时。但是，对于一次性事件，最好使用导出表。
22、在新建临时表时，如果一次性插入数据量很大，那么可以使用 select into 代替 create table，避免造成大量 log ，以提高速度；如果数据量不大，为了缓和系统表的资源，应先create table，然后insert。
23、如果使用到了临时表，在存储过程的最后务必将所有的临时表显式删除，先 truncate table ，然后 drop table ，这样可以避免系统表的较长时间锁定。
24、尽量避免使用游标，因为游标的效率较差，如果游标操作的数据超过1万行，那么就应该考虑改写。
25、使用基于游标的方法或临时表方法之前，应先寻找基于集的解决方案来解决问题，基于集的方法通常更有效
26、与临时表一样，游标并不是不可使用。对小型数据集使用 FAST_FORWARD 游标通常要优于其他逐行处理方法，尤其是在必须引用几个表才能获得所需的数据时。在结果集中包括“合计”的例程通常要比使用游标执行的速度快。如果开发时间允许，基于游标的方法和基于集的方法都可以尝试一下，看哪一种方法的效果更好。
27、在所有的存储过程和触发器的开始处设置 SET NOCOUNT ON ，在结束时设置 SET NOCOUNT OFF 。无需在执行存储过程和触发器的每个语句后向客户端发送DONE_IN_PROC 消息。
28、尽量避免大事务操作，提高系统并发能力。
29、尽量避免向客户端返回大数据量，若数据量过大，应该考虑相应需求是否合理