进阶04-索引

索引概述

介绍

索引是帮助MYSQL高效获取数据的数据结构(有序)。

特点

好处:

  1. 提高检索效率,降低数据库IO成本
  2. 降低数据排序成本,降低CPU消耗

坏处:

  1. 索引占用空间
  2. 索引大大提高了查询效率,同时却也降低更新表的速度, 如对表进行INSERT、UPDATE、DELETE时,效率降低

索引结构

image.png
image.png

二叉树

如果选择二叉树作为索引结构,会存在以下缺点:
顺序插入时,会形成一个链表,查询性能大大降低。 大数据量情况下,层级较深,检索速度慢。
image.png
image.png
如果使用红黑树:
大数据量情况下,层级较深,检索速度慢。
image.png

B-Tree

B树是一种多路平衡查找树。
相对于二叉树来说,每个节点可以有多个分路。
image.png

B+Tree

B+Tree是B-Tree的变种。
image.png
绿色框框起来的部分,是索引部分,仅仅起到索引数据的作用,不存储数据。
红色框框起来的部分,是数据存储部分,在其叶子节点中要存储具体的数据。
二者区别:

  1. 所有的数据都会出现在叶子节点。
  2. 叶子节点形成一个单向链表。
  3. 非叶子节点仅仅起到索引数据作用,具体的数据都是在叶子节点存放的。

MySQL索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上,增加一个指向相邻叶子节点 的链表指针,就形成了带有顺序指针的B+Tree,提高区间访问的性能,利于排序。
image.png

Hash

哈希索引就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在 hash表中。
image.png
如果两个(或多个)键值,映射到一个相同的槽位上,他们就产生了hash冲突(也称为hash碰撞),可 以通过链表来解决。
image.png
特点:

  1. Hash索引只能用于对等比较(=,in),不支持范围查询(between,>,< ,…)
  2. 无法利用索引完成排序操作
  3. 查询效率高,通常(不存在hash冲突的情况)只需要一次检索就可以了,效率通常要高于B+tree索引

存储引擎支持:
在MySQL中,支持hash索引的是Memory存储引擎。 而InnoDB中具有自适应hash功能,hash索引是 InnoDB存储引擎根据B+Tree索引在指定条件下自动构建的。

思考:

为什么InnoDB存储引擎选择使用B+tree索引结构?

  1. 相对于二叉树来说,层级更好,搜索效率高;
  2. 对于B-tree,无论是叶子节点还是非叶子节点,都会保存数据,这样导致一页中存储 的键值减少,指针跟着减少,要同样保存大量数据,只能增加树的高度,导致性能降低;
  3. 相对Hash索引,B+tree支持范围匹配及排序操作;

索引分类

image.png
image.png
聚焦索引选取规则:

  1. 默认主键
  2. 没有主键就默认唯一索引
  3. 都没有InnoDB会自动生成一个rowid作为隐藏的聚焦索引

image.png
思考题:
以下两条SQL语句,哪个效率高?
select * from user where id = ‘10’;
select * from user where name = ‘Arm’;
答:第一条效率高,第一条直接走聚焦索引直接返回数据,第二条先走二级索引获取id然后再查询聚焦索引,也就是回表查询。

索引语法

创建索引

单列索引
create index idx_user_name on tb_user(name)
联合索引
CREATE INDEX idx_user_pro_age_sta ON tb_user(profession,age,status);

查询索引
show index from table_name;
删除索引
drop index index_name on table_name;

SQL性能分析

SQL执行频率

查看增删改查的访问频次
show global status like ‘Com_______’;

慢查询日志

开启慢查询日志
vi /etc/my.cnf
进入之后配置信息:

# 开启MySQL慢日志查询开关
slow_query_log=1
# 设置慢日志的时间为2秒,SQL语句执行时间超过2秒,就会视为慢查询,记录慢查询日志
long_query_time=2

重启mysql:systemctl restart mysqld
查询是否打开:
show variable like ‘slow_query_log’;
通过慢查询日志,就可以定位出执行效率比较低的SQL,从而有针对性的进行优化。

profile

查询是否开启
select @@have_profiling;
开启
set profiling = 1;
接下里我们就可以查询指令耗时了:

-- 查看每一条SQL的耗时基本情况
show profiles;
-- 查看指定query_id的SQL语句各个阶段的耗时情况
show profile for query query_id;
-- 查看指定query_id的SQL语句CPU的使用情况
show profile cpu for query query_id;

explain

用法:explain + sql语句
作用: 获取 MySQL 如何执行 SELECT 语句的信息,包括在 SELECT 语句执行 过程中表如何连接和连接的顺序。
image.png

索引使用

最左前缀法则

如果采用了联合索引,要遵循最左前缀法则。
最左前缀法则指的是查询从索引的最左列开始, 并且不跳过索引中的列。如果跳跃某一列,索引将会部分失效(后面的字段索引失效)。
举例:
profession, age,status 的联合索引,如果跳过age的的索引,那么只有profession的索引会生效,也就是联合索引部分生效。

思考题:

当执行SQL语句:
explain select * from tb_user where age = 31 and status = ‘0’ and profession = ‘软件工程’; 时,是否满足最左前缀法则,走不走 上述的联合索引,索引长度?
答:满足,可以生效, 最左前缀法则中指的最左边的列,是指在查询时,联合索引的最左边的字段(即是 第一个字段)必须存在,与我们编写SQL时,条件编写的先后顺序无关。

范围查询

联合索引中,出现范围查询(>,<),范围查询右侧的列索引失效。
explain select * from tb_user where profession = ‘软件工程’ and age > 30 and status = ‘0’;
结果只有profession 和 age 的索引生效了,status失效。

当范围查询使用>= 或 <= 时,所有的字段都是走索引的。
所以,在业务允许的情况下,尽可能的使用类似于 >= 或 <= 这类的范围查询,而避免使用 > 或 < 。

索引失效情况

  1. 在索引列上进行运算操作,索引失效
    1. select * from tb_user where substring(phone,10,2) = ‘15’;
  2. 字符串不加引号,索引失效
    1. select * from tb_user where name = ‘软件工程’ and age = 31 and status = 0;(应该是status = ‘0’)
  3. 如果仅仅是尾部模糊匹配,索引不会失效。如果是头部模糊匹配,索引失效。
    1. select * from tb_user where profession like ‘软件%’;(可以生效)
    2. select * from tb_user where profession like ‘%工程’;(不能生效)
    3. select * from tb_user where profession like ‘%工%’;(不能生效)
  4. 用or分割开的条件,如果or前的条件中的列有索引,而后面的列中没有索引,那么涉及的索引都不会被用到。当or连接的条件,左右两侧字段都有索引时,索引才会生效。
    1. select * from tb_user where id = 10 or age = 23;
    2. 只有当 id 和 age 同时有索引时,才会生效

数据分布

如果MySQL评估使用索引比全表更慢,则不使用索引
因为MySQL在查询时,会评估使用索引的效率与走全表扫描的效率,如果走全表扫描更快,则放弃 索引,走全表扫描。 因为索引是用来索引少量数据的,如果通过索引查询返回大批量的数据,则还不 如走全表扫描来的快,此时索引就会失效。

SQL提示

SQL提示,是优化数据库的一个重要手段,简单来说,就是在SQL语句中加入一些人为的提示来达到优 化操作的目的。

  1. use index
    1. 建议MySQL使用哪一个索引完成此次查询(仅仅是建议,mysql内部还会再次进 行评估)。
  2. ignore index
    1. 忽略指定的索引。
  3. force index
  4. 强制使用索引

覆盖索引

尽量使用覆盖索引,减少select *。
那么什么是覆盖索引呢? 覆盖索引是指查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到。

前缀索引

当字段类型为字符串(varchar,text,longtext等时,有时候需要索引很长的字符串,这会让 索引变得很大,查询时,浪费大量的磁盘IO, 影响查询效率。此时可以只将字符串的一部分前缀,建 立索引,这样可以大大节约索引空间,从而提高索引效率。
为tb_user表的email字段,建立长度为5的前缀索引。
create index idx_email_5 on tb_user(email(5));

前缀长度由索引的选择性决定
select count(distinct substring(email,1,5)) / count(*) from tb_user ;
慢慢尝试找到合适的前缀长度,结果越高越好

索引设计原则

  1. 针对数据量较大,且查询较为频繁的表建立索引
  2. 针对常作为 where、order by、group by操作的字段建立索引
  3. 尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高。
  4. 如果是字符串类型的字段,字段的长度较长,可以针对于字段的特点,建立前缀索引。
  5. 尽量使用联合索引,减少单列索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间, 避免回表,提高查询效率。
  6. 要控制索引的数量,索引并不是多多益善,索引越多,维护索引结构的代价也就越大,会影响增 删改的效率
  7. 如果索引列不能存储NULL值,请在创建表时使用NOT NULL约束它。当优化器知道每列是否包含 NULL值时,它可以更好地确定哪个索引最有效地用于查询。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值