2.索引优化

最新推荐文章于 2022-04-22 09:17:00 发布

Jahnsonxi

最新推荐文章于 2022-04-22 09:17:00 发布

阅读量262

点赞数

分类专栏：数据库文章标签： mysql 数据库索引

本文链接：https://blog.csdn.net/Jahnsonxi/article/details/103893964

版权

数据库专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基于MySQL5.5

性能下降SQL慢

查询语句的问题
索引失效
- 单值索引
- 符合索引
关联查询太多的join(设计缺陷或不得已的需求)
服务器及各个参数设置（缓冲，线程数）

Join查询

SQL执行顺序
SQL解析
- FROM–笛卡尔集
- ON–主表保留
- JOIN不符合ON也添加
- WHERE非聚合–非SELECT别名
- GROUP BY改变对象引用
- HAVING–只作用分组后
- SELECT–DISTINCT
- ORDER BY可使用SELECT别名
- LIMIT–ROWS OFFSET

Join图

索引简介

索引是什么

索引是什么：索引是帮助MySQL高效获取数据的数据结构。
数据本身之外，数据库还维护着一个满足特定查找算法的数据结构，这些数据结构以某种方式指向数据，这样就可以在这些数据结构的基础上实现高级的查找算法，这种数据结构就是索引。
一般来说索引本身也很大，不可能全部存储在内存中，因此索引往往以索引文件的形式存储在磁盘上。
我们平常说的索引，如果没有特别指明，都是指B树（多路搜索树，并不一定是二叉树）结构组织的索引。其中聚集了复合索引，前缀索引，唯一索引，默认的都是使用B+树索引，统称索引。

优势

类似大学图书馆建书目索引，提高数据检索的效率，降低数据库的IO成本
通过索引对数据进行排序，降低数据排序的成本，降低CPU的消耗

劣势

实际上索引也是一张表，该表保存了主键与索引字段，并指向实体表的记录，索引也要占用空间
虽然索引大大提高了查询速度，同时却会降低更新表的速度，如对表进行INSERT、UPDATE和DELETE，因为更新表时，MySQL不仅要保存数据，还要保存一下索引文件每次更新添加了索引列的字段，都会调整因为更新所带来的键值变化后的索引信息
索引只是提高效率的一个因素，如你的MySQL有大数据量的表，就需要花时间研究建立最优秀的索引，或优化查询

mysql索引分类

单值索引：即一个索引只包含单个列，一个表可以有多个单列索引
唯一索引：索引列的值必须唯一，但允许有空值
复合索引：即一个索引包含多个列

基本语法

创建：
- CREATE [UNIQUE] INDEX indexName ON tableName(columnName(length));
- ALTER tableName ADD [UNIQUE] INDEX [indexName] ON (columnName(length));
删除：DROP INDEX [indexName] ON tableName;
查看（\G竖行显示）：SHOW INDEX FORM table_name\G
有四种方式来添加数据表的索引
- 该语句添加一个主键，这意味着索引值必须是唯一的，且不能为NULL。
```
ALTER TABLE tbl_name ADD PRIMARY KEY (column_list);
```
- 这条语句创建索引的值必须是唯一的（除了NULL外，NULL可能会出现多次）
```
ALTER TABLE tbl_name ADD UNIQUE index_name(column_list);
```
- 添加普通索引，索引值可出现多次。
```
ALTER TABLE tbl_name ADD INDEX index_name(column_list);
```
- 该语句指定了索引为FULLTEXT，用于全文索引。
```
ALTER TABLE tbl_name ADD FULLTEXT index_name(column_list);
```

mysql索引结构

BTree索引
Hash索引
full-text全文索引
R-Tree索引

初始化介绍

一颗b+树，浅蓝色的块我们称之为一个磁盘块，可以看到每个磁盘块包含几个数据项（深蓝色所示）和指针（黄色所示），如磁盘块1包含数据项17和35，包含指针P1、P2、P3,P1表示小于17的磁盘块，P2表示在17和35之间的磁盘块，P3表示大于35的磁盘块
真实数据存在于叶子节点，即3、5、9、10、13、15等
非叶子节点不存储真实的数据，只存储指引搜索方向的数据项，如17、35并不真实存在于数据

查找过程

如果要查找数据项29，那么首先会把磁盘块1由磁盘加载到内存，此时发生一次IO，在内存中用二分查找确定29在17和35之间，锁定磁盘块1的P2指针，内存时间因为非常短（相比磁盘的IO）可以忽略不计
通过磁盘块1的P2指针的磁盘地址把磁盘块3由磁盘加载到内存中，发生第二次IO，29在26和30之间，锁定磁盘块3的P2指针
通过指针加载磁盘块8到内存，发生第三次IO，同时内存中做二分查找找到29，结束查询，总计三次IO
真实情况是，3层的B+树可以表示上百万的数据，如果上百万的数据查找只需要三次IO，性能提高是巨大的，如果没有索引，每个数据项都要发生一次IO，那么总共需要百万次IO，显然效率非常低。

哪些情况需要建立索引

主键自动建立唯一索引
频繁作为查询条件的字段应该创建索引
查询中与其他表关联的字段，外键关系建立索引
频繁更新的字段不适合创建索引，因为每次更新不单单是更新了记录还会更新索引
where条件里用不到的字段不需要创建索引
在高并发的情况下倾向创建组合索引，而不是单键索引
查询中排序的字段，排序字段若通过索引去访问将大大提高排序的速度
查询中需要统计或分组的字段适合建索引

哪些情况不需要建立索引

表记录太少
经常增删改的表，提高了查询速度，同时为降低更新表的速度，如对表进行更新时，mysql不仅要更新数据，也要更新索引
数据重复且分布均匀的表字段，因此应该只为最经常查询的和最经常排序的字段建立索引
如果某个数据包含了许多重复的内容，为它建立索引就没有太大的实际效果

性能分析

mysql Query Optimizer

Mysql中有专门负责优化SELECT语句的优化器模块，主要功能：通过计算分析系统中手机到的统计信息，为客户端请求的Query提供它认为最优的执行计划，但不见得是DBA认为的最优的执行计划
当客户端向MySQL请求一条Query，命令解析器模块完成请求分类，区别出是SELECT并转发给MySQL，Query Optimizer时，MySQL Query Optimizer首先会对整条Query进行优化，处理掉一些常量表达式的预算，直接换算成常量池，并对Query中的查询条件进行简化和转换，如去掉一些无用或显而易见的条件、结构调整等。然后分析Query中的Hint信息（如果有），看显示Hint信息是否可以完全确定该Query的执行计划。如果没有Hint或Hint信息还不足以完全确定执行计划，则会读取所涉及对象的统计信息，根据Query进行写相应的计算分析，然后再得出最后的执行计划。

MySQL常见瓶颈

CPU：CPU在饱和的时候一般发生在数据装入内存或从磁盘上读取数据时
IO：磁盘IO瓶颈发生在装入数据远大于内存容量的时候
服务器硬件的性能瓶颈：top、free、iostat、vmstat来查看系统的性能

explain是什么

使用explain关键字可以模拟优化器执行SQL查询语句，从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是结构性的性能瓶颈。

explain能干嘛

表的读取顺序
数据读取操作的操作类型
哪些索引可以使用
哪些索引被实际使用
表之间的引用
每张表有多少行被优化器查询

id

select查询的序列号，包含一组数字，表示查询中执行select子句或操作表的顺序
三种情况
- id相同，执行顺序由上至下
- id不同，如果是子查询，id的序号会递增，id值越大优先级越高，越先被执行
- ？id相同不同，同时存在

select_type

用于区别查询、子查询等复杂的查询
SIMPLE：简单的select查询，查询中不包含查询或者UNION
PRIMARY：查询中若包含任何复杂的子部分，最外层查询则被标记为此
SUBQUERY：在SELECT或WHERE列表中包含了子查询
DERIVED：在FROM列表中包含的子查询被标记为DERIVED（衍生）MySQL会递归执行这些子查询，把结果放在临时表里
UNION：若第二个SELECT出现在UNION之后，则被标记为UNION，若UNION包含在FROM子句的子查询中，外层SELECT将被标记为DERIVED
UNION RESULT：从UNION表获取结果的SELECT

table

显示这一行的数据是关于哪张表的

type

访问类型排序
type是访问类型，比较重要的一个指标，结果值从最好到坏依次是：system>const>eq_ref>ref>fulltext>ref_or_null>index_merge>unique_subquery>index_subquery>range>index>ALL
一般来说，得保证查询至少达到range级别，最好能达到ref级别
system：表示只有一行记录（等于系统表），这是const类型的特例，平时不会出现，这个可以忽略不计
const：表示通过索引一次就找到了，const用于比较primary key或者unique索引，因为只匹配一行数据，所以很快；如果将主键置于where列表中，MySQL就能将该查询转换为一个常量
eq_ref：唯一索引扫描，对于每个索引键，表中只有一条记录与之匹配，常见于主键或唯一索引
ref：非唯一性索引扫描，返回匹配某个单独值的所有行，然而，它可能会找到多个符合条件的行，所以他应该属于查找和扫描的混合体
range：只检索给定范围的行，使用一个索引来选择行，key列显示了使用哪个索引；一般就是在where语句中出现between、<、>、in等查询；这种范围扫描索引扫描比全表扫描要好，因为它只需要开始于索引的某一点，而结束于另一点，不用扫描全部索引
index：Full Index Scan，Index与All区别为Index类型只遍历索引树；这通常比ALL快，因为索引文件通常比数据文件小（也就是说虽然all和index都是读全表，但index是从索引中读取的，而all是从硬盘中读取的）

possible_keys

显示可能应用在这张表中的索引，一个或多个
查询涉及到的字段上若存在索引，则该索引将被列出，但不一定会被使用

key

实际使用中的索引，如果为NULL，则没有使用索引
查询中若使用了覆盖索引，则该索引仅出现在key列表中

key_len

表示索引中使用的字节数，可通过该列计算查询中使用的索引的长度，在不损失精确性的情况下，长度越短越好
key_len显示的值为索引字段的最大可能长度，并非实际使用长度，即key_len是根据表定义计算而得，不是通过表内检索得出的

ref

显示索引的哪一列被使用了，如果可能的话，是一个常数。哪些列或常量被用于查找索引列上的值

rows

根据表统计信息及索引选用情况，大致估算出找到所需的记录所需要读取的行数

extra

包含不适合在其他列中显示但十分重要的额外信息
Using filesort：说明mysql会对数据使用一个外部的索引排序，而不是按照表内的索引顺序进行读取，MySQL中无法利用索引完成的排序操作称为“文件排序”
Using temporary：使用了临时表保存中间结果，MySQL在对查询结果排序时使用临时表；常见于排序order by和分组查询group by
Using index：表示相应的select操作中使用了覆盖索引（Covering Index），避免访问了表的数据行，效率不错；
- 如果同时出现Using where，表名索引被用来执行索引键值的查找；
- 如果没有同时出现using where，表明索引用来读取数据而非执行查找动作；
- 覆盖索引：
  - 理解1：就是select的数据列只用从索引中就能够取得，不必读取数据行，MySQL可以利用索引返回select列表中的字段，而不必根据索引再次读取数据文件，换句话说，查询列要被所建的索引覆盖
  - 理解2：索引是高效找到行的一个方法，但是一般数据库也能使用索引找到一个列的数据，因此它不必读取整个行，毕竟索引叶子节点存储了它们的索引数据，当能通过读取索引就可以得到想要的数据，那就不需要读取行了，一个索引包含了（或覆盖了）满足查询结果的数据，就叫做覆盖索引。
Using where：表明使用了where过滤
Using join buffer：使用了连接缓存
impossible where：where子句的值总是false，不能用来获取任何元素
select tables optimized away：在没有GROUP BY子句的情况下，基于索引优化MIN/MAX操作或者对于MyISAM存储引擎优化COUNT(*)操作，不必等到执行阶段再进行计算，查询执行计划生成的阶段即完成优化
distinct：优化distinct操作，在找到第一匹配的元素后即停止查找同样值的动作

索引优化

索引失效

全值匹配我最爱
最佳左前缀法则：如果索引了多列，要遵守最左前缀法则，指的是查询从索引的最左前列开始并且不跳过索引中的列
不在索引列上做任何操作（计算、函数、[自动或手动]类型转换），会导致索引失效而转向全表扫描
存储引擎不能使用索引范围条件右边的列
尽量使用覆盖索引（只访问索引的查询[索引列和查询列保持一致]，避免select *）
mysql在使用不等于(!=或<>)的时候无法使用索引，会导致全表扫描
is null，is not null也无法使用索引
like以通配符%开头，会导致索引失效
字符串不加单引号，会导致隐式的类型转换，进而导致索引失效
少用or，连接时会导致索引失效

常见问题

定制、范围还是排序，一般order by是给个范围
group by基本上都需要进行排序，会有临时表产生

一般性建议

对于单值索引，尽量选择针对当前query过滤性更好的索引
在选择组合索引的时候，当前query中过滤性最好的字段在索引字段顺序中，位置越靠前越好
在选择组合索引时，尽量选择可以能够包含当前query中的where子句中更多字段的索引
尽可能通过分析统计信息和调整query的写法来达到选择合适索引的目的

口诀

全值匹配我最爱，最左前缀要遵; 带头大哥不能死，中间兄弟不能断；索引列上少计算，范围之后全失效； LIKE百分写最右，覆盖索引不写星；不等空值还有OR，索引失效要少用； VAR引号不可丢，SQL高级也不难；

Jahnsonxi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2.索引优化

性能下降SQL慢查询语句的问题索引失效单值索引符合索引关联查询太多的join(设计缺陷或不得已的需求)服务器及各个参数设置（缓冲，线程数）Join查询SQL执行顺序SQL解析FROM–笛卡尔集ON–主表保留JOIN不符合ON也添加WHERE非聚合–非SELECT别名GROUP BY改变对象引用HAVING–只作用分组后SELECT–DISTINCT...
复制链接

扫一扫

专栏目录