数据库索引详解(mysql)

一、了解索引

1.1 什么是索引?为什么要建立索引?

索引是对数据库表中一列或多列的值进行排序的一种数据结构(索引的数据结构有hash、btree等类型,数据结构的内容,我们不在此讨论),使用索引可快速访问数据库表中的特定信息。如果想按特定职员的姓来查找他或她,则与在表中搜索所有的行相比,索引有助于更快地获取信息。

使用索引的全部意义就是通过缩小一张表中需要查询的记录/行的数目来加快搜索的速度。

索引对查询的效率有着至关重要的影响,一个好的索引,可以几
十倍的提高查询效率,同时索引也是数据库优化的起点。

1.2 缺点

过多的使用索引将会造成滥用。因此索引也会有它的缺点:虽然索引大大提高了查询速度,同时却会降低更新表的速度,如对表进行INSERT、UPDATE和DELETE。因为更新表时,MySQL不仅要保存数据,还要保存一下索引文件。
所以,一张表中的索引条数最好不要超过5条。

二、为什么使用索引能提高sql查询效率?

2.1 数据库索引里究竟存的是什么?

数据库索引是创建在表的某列上的,并且存储了这一列的所有值。但是,需要理解的重点是数据库索引并不存储这个表中其他列(字段)的值。
数据库索引同时存储了指向表中的相应行的指针。指针是指一块内存区域, 该内存区域记录的是对硬盘上记录的相应行的数据的引用。因此,索引中除了存储列的值,还存储着一个指向在行数据的索引。
实际上,索引也是一张表,该表保存了主键与索引字段,并指向实体表的记录。

如果没有索引,在执行一条查询时会逐条向下遍历,就是所谓的全表扫描.

// An highlighted block
SELECT area FROM tb_areas WHERE areaid = '320602'

以上面这条sql为例子不使用索引和使用索引的差异。

不使用索引:(EXPLAIN sql执行计划)

EXPLAIN SELECT area FROM tb_areas WHERE areaid = '320602'

未使用索引的查询情况

未建立索引时,进行全表扫描,比对的记录条数是3321条

下面我们为areaid建立索引

CREATE INDEX areaid ON tb_areas(areaid(20))

再次查看sql执行计划
建立索引时

可以看到比对的条数变为1

使用索引的全部意义就是通过缩小一张表中需要查询的记录/行的数目来加快搜索的速度。
 

三、索引的分类

索引是在存储引擎中实现的,不同的存储引擎会使用不同的索引

MyISAM和InnoDB存储引擎:只支持BTREE索引, 不能更换
MEMORY/HEAP存储引擎:支持HASH和BTREE索引

3.1从类型来分类 单列索引(普通索引,唯一索引,主键索引)、组合索引、全文索引
3.1.1 单列索引:(一个索引只包含单个列,但一个表中可以有多个单列索引)

普通索引:
MySQL中基本索引类型,没有什么限制,允许在定义索引的列中插入重复值和空值,纯粹为了查询数据更快一点。

唯一索引:
索引列中的值必须是唯一的,但是允许为空值,并且null可能有多个

主键索引:
也即主键约束,是一种特殊的唯一索引,不允许有空值。

3.1.2 组合索引

在表中的多个字段组合上创建的索引,只有在查询条件中使用了这些字段的左边字段时,索引才会被使用,使用组合索引时遵循最左前缀集合。这个如果还不明白,等后面举例讲解时在细说

3.1.3 全文索引

全文索引,只有在MyISAM引擎上才能使用,只能在CHAR,VARCHAR,TEXT类型字段上使用全文索引

3.2 按照存储方式分为:聚集与非聚集索引

mysql 中不同引擎对聚集与非聚集索引的实现和支持也不同

1.MyISAM的B+Tree的叶子节点上的data,并不是数据本身,而是数据存放的地址。主索引和辅助索引没啥区别,只是主索引中的key一定得是唯一的。这里的索引都是非聚簇索引。
2.MyISAM还采用压缩机制存储索引,比如,第一个索引为“her”,第二个索引为“here”,那么第二个索引会被存储为“3,e”,这样的缺点是同一个节点中的索引只能采用顺序查找。
3.InnoDB 的数据文件本身就是索引文件,B+Tree的叶子节点上的data就是数据本身,key为主键,这是聚簇索引。非聚簇索引,叶子节点上的data是主键 (所以聚簇索引的key,不能过长)。为什么存放的主键,而不是记录所在地址呢,理由相当简单,因为记录所在地址并不能保证一定不会变,但主键可以保证。

3.3 聚簇索引

表中存储的数据按照索引的顺序存储,检索效率比普通索引高,但对数据新增/修改/删除的影响比较大。逻辑顺序决定了表中相应行的物理顺序。
特点:

(1) 一个表中只能创建一个聚簇索引
(2) 数据会根据索引键的顺序重新排列数据
(3) 无索引,数据无序;有索引,数据与索引同序
(4) 数据与索引在不同位置
(5) 索引在叶节点上存储,在叶节点上有一个"指针"直接指向要查询的数据区域
(6) 如果在该字段上进行范围查询,或者该表很少做增删改,建立聚簇索引
(7) 一般情况下主键会默认创建聚簇索引,且一张表只允许存在一个聚簇索引。
(8) 含有聚合索引的表,再创建非聚合索引的,索引标志指向聚合索引.

3.4 非聚簇索引

不影响表中的数据存储顺序,检索效率比聚簇索引引低,对数据新增/修改/删除的影响很少
。是通过二叉树的数据结构来描述的,逻辑顺序,特点:

(1) 非聚集索引数据与索引不同序
(2) 先建聚集索引才能创建非聚集索引
(3) 数据不会根据索引键的顺序重新排列数据
(4) 一个表可以可以创建多个非聚簇索引
(5) 叶节点的指针指向的数据也在同一位置存储
(6) 非聚集索引其实可以看作是一个被聚集索引含有的表,他仅包含原表中非聚集索引的列和指向实际物理表的指针

为什么主键通常建议使用自增id呢?

聚簇索引的数据的物理存放顺序与索引顺序是一致的,即:只要索引是相邻的,那么对应的数据一定也是相邻地存放在磁盘上的。如果主键不是自增id,那么可以想象,它会干些什么,不断地调整数据的物理地址、分页,当然也有其他一些措施来减少这些操作,但却无法彻底避免。但,如果是自增的,那就简单了,它只需要一页一页地写,索引结构相对紧凑,磁盘碎片少,效率也高。
聚簇索引不但在检索上可以大大的提高效率,在数据读取上也一样。比如:需要查询f~t的所有单词。
一个使用MyISAM的主索引,一个使用InnoDB的聚簇索引。两种索引的B+Tree检索时间一样,但读取时却有了差异。
因为MyISAM的主索引并非聚簇索引,那么他的数据的物理地址必然是凌乱的,拿到这些物理地址,按照合适的算法进行I/O读取,于是开始不停的寻道不停的旋转。聚簇索引则只需一次I/O。
不过,如果涉及到大数据量的排序、全表扫描、count之类的操作的话,还是MyISAM占优势些,因为索引所占空间小,这些操作是需要在内存中完成的。
鉴于聚簇索引的范围查询效率,很多人认为使用主键作为聚簇索引太多浪费,毕竟几乎不会使用主键进行范围查询。但若再考虑到聚簇索引的存储,就不好定论了。

四、如何使用

数据库怎么知道什么时候使用索引?

当这个sql运行时,数据库会检查在查询的列上是否有索引。假设创建了索引,数据库会接着检查使用这个索引做查询是否合理 - 因为有些场景下,使用索引比起全表扫描会更加低效。数据库会自动选择它认为最高效的策略来执行sql。

4.1 普通索引

这是最基本的索引,它没有任何限制。它有以下几种创建方式:

直接创建索引
CREATE INDEX indexName ON mytable(username(length)); 
如果是CHARVARCHAR类型,length可以小于字段实际长度;如果是BLOBTEXT类型,必须指定 length。
修改表结构(添加索引)
ALTER table tableName ADD INDEX indexName(columnName)
创建表的时候直接指定
CREATE TABLE mytable(  
 
ID INT NOT NULL,   
 
username VARCHAR(16) NOT NULL,  
 
INDEX [indexName] (username(length))  
 
);  
4.2 唯一索引
直接创建索引
CREATE UNIQUE INDEX indexName ON mytable(username(length)) 
修改表结构(添加索引)
ALTER table mytable ADD UNIQUE [indexName] (username(length))
创建表的时候直接指定
CREATE TABLE mytable(  
 
ID INT NOT NULL,   
 
username VARCHAR(16) NOT NULL,  
 
UNIQUE [indexName] (username(length))  
 
);  
4.3 主键索引

其实我们以前声明的主键约束,就是一个主键索引

创建表的时候直接指定
CREATE TABLE t2

(

id INT NOT NULL,

name CHAR(10),

PRIMARY KEY(id)

); 
修改表结构(添加索引)
ALTER TABLE test ADD CONSTRAINT test_PrimaryKey PRIMARY KEY (PrimaryKey);
	以上都是单列索引
4.4 复合索引
直接创建索引
CREATE INDEX index_userName_password ON t_user(userName,PASSWORD);
修改表结构(添加索引)
ALTER table mytable ADD UNIQUE [indexName] (username(length))
创建表的时候直接指定
CREATE TABLE mytable(  
 
ID INT NOT NULL,   
 
username VARCHAR(16) NOT NULL,  
 
UNIQUE [indexName] (username(length))  
 
);  

4.5 聚集索引

创建聚集索引的语法:

create NONCLUSTERED INDEX indexname ON tablename(columnName())

4.6 非聚集索引

创建非聚集索引的语法:

create CLUSTERED INDEX indexname on tablename(columnName())

4.7 删除索引

--直接删除索引
DROP INDEX index_name ON table_name;

--修改表结构删除索引
ALTER TABLE table_name DROP INDEX index_name;

4.8 显示索引信息

你可以使用 SHOW INDEX 命令来列出表中的相关的索引信息。可以通过添加 \G 来格式化输出信息。
SHOW INDEX FROM table_name; \G

五、何时创建索引

  1. 定义主键的数据列一定要建立索引。

  2. 定义有外键的数据列一定要建立索引。

  3. 对于经常查询的数据列最好建立索引。

  4. 对于需要在指定范围内的快速或频繁查询的数据列;

  5. 经常用在WHERE子句中的数据列。

  6. 经常出现在关键字order by、group by、distinct后面的字段,建立索引。如果建立的是复合索引,索引的字段顺序要和这些关键字后面的字段顺序一致,否则索引不会被使用。

  7. 对于那些查询中很少涉及的列,重复值比较多的列不要建立索引。

  8. 对于定义为text、image和bit的数据类型的列不要建立索引。

  9. 对于经常存取的列避免建立索引

  10. 限制表上的索引数目。对一个存在大量更新操作的表,所建索引的数目一般不要超过3个,最多不要超过5个。索引虽说提高了访问速度,但太多索引会影响数据的更新操作。

  11. 对复合索引,按照字段在查询条件中出现的频度建立索引。在复合索引中,记录首先按照第一个字段排序。对于在第一个字段上取值相同的记录,系统再按照第二个字段的取值排序,以此类推。因此只有复合索引的第一个字段出现在查询条件中,该索引才可能被使用,因此将应用频度高的字段,放置在复合索引的前面,会使系统最大可能地使用此索引,发挥索引的作用。

六、索引优化

6.1 注意

数据库表中添加索引后确实会大大加快查询效率,但如果以错误的方式使用,则即使建立索引也会不生效。

- like '%xx'    
 	select * from tb1 where name like '%cn';
 	特别的:当'cn%'会走索引
 	select * from tb1 where name like 'cn%';
- 使用函数
    select * from tb1 where reverse(name) = 'wupeiqi';
- or    
	select * from tb1 where nid = 1 or email = 'seven@live.com';
    特别的:当or条件中有未建立索引的列才失效,以下会走索引
            select * from tb1 where nid = 1 or name = 'seven';
            select * from tb1 where nid = 1 or email = 'seven@live.com' and name = 'alex'
            
- 类型不一致
    如果列是字符串类型,传入条件是必须用引号引起来,不然...
    select * from tb1 where name = 999;
- !=    
	select * from tb1 where name != 'alex'
    特别的:如果是主键,则还是会走索引
    select * from tb1 where nid != 123
- >    
 	select * from tb1 where name > 'alex'
    特别的:如果是主键或索引是整数类型,则还是会走索引
    select * from tb1 where nid > 123
    select * from tb1 where num > 123
- order by    
    select email from tb1 order by name desc;
    当根据索引排序时候,选择的映射如果不是索引,则不走索引
    特别的:如果对主键排序,则还是走索引:
        select * from tb1 order by nid desc;
- 组合索引最左前缀
    如果组合索引为:(name,email) 这里和顺序有关必须使用左侧字段后左侧才能生效
    name and email       -- 使用索引    
    name                 -- 使用索引    
    email                -- 不使用索引
  • 避免使用select *
  • count(1)或count(列) 代替 count(*)
  • 创建表时尽量时 char 代替 varchar
  • 表的字段顺序固定长度的字段优先
  • 组合索引代替多个单列索引(经常使用多个条件查询时)
  • 尽量使用短索引- 使用连接(JOIN)来代替子查询(Sub-Queries)
  • 连表时注意条件类型需一致
  • 索引散列值(重复多)不适合建索引
6.2 LIMIT分页

若需求是每页显示10条数据,如何建立分页?

我们可以先使用LIMIT尝试:

--第一页
SELECT * FROM table_name LIMIT 0,10;
--第二页
SELECT * FROM table_name LIMIT 10,10;--第三页SELECT * FROM table_name LIMIT 20,10;

但是这样做有如下弊端:
每一条select语句都会从1遍历至当前位置,若跳转到第100页,则会遍历1000条记录
若记录的id不连续,则会出错

改善:
若已知每页的max_id和min_id,则可以通过主键索引来快速定位:

--下一页
SELECT * FROM table_name WHERE id in (SELECT id FROM table_name WHERE id > max_id LIMIT 10);
--上一页
SELECT * FROM table_name WHERE id in (SELECT id FROM table_name WHERE id < min_id ORDER BY id DESC LIMIT 10);
--当前页之后的某一页
SELECT * FROM table_name WHERE id in (SELECT id FROM (SELECT id FROM (SELECT id FROM table_name WHERE id < min_id ORDER BY id desc LIMIT (页数差*10)) AS N ORDER BY N.id ASC LIMIT 10) AS P ORDER BY P.id ASC);
--当前页之前的某一页
SELECT * FROM table_name WHERE id in (SELECT id FROM (SELECT id FROM (SELECT id FROM table_name WHERE id > max_id LIMIT (页数差*10)) AS N ORDER BY N.id DESC LIMIT 10) AS P) ORDER BY id ASC;
6.3 慢查询日志

MySQL的慢查询日志是MySQL提供的一种日志记录,它用来记录在MySQL中响应时间超过阀值的语句,具体指运行时间超过long_query_time值的SQL,则会被记录到慢查询日志中。long_query_time的默认值为10,意思是运行10S以上的语句。默认情况下,MySQLl数据库并不启动慢查询日志,需要我们手动来设置这个参数,当然,如果不是调优需要的话,一般不建议启动该参数,因为开启慢查询日志会或多或少带来一定的性能影响。慢查询日志支持将日志记录写入文件,也支持将日志记录写入数据库表。

  1. 查看慢日志参数:
--查询配置命令show variables like '%query%';
--当前配置参数
	binlog_rows_query_log_events    OFFft_query_expansion_limit    20have_query_cache    YES
--时间限制,超过此时间,则记录
	long_query_time    10.000000
	query_alloc_block_size    8192
	query_cache_limit    1048576
	query_cache_min_res_unit    4096
	query_cache_size    1048576
	query_cache_type    OFF
	query_cache_wlock_invalidate    OFF
	query_prealloc_size    8192
--是否开启慢日志记录
	slow_query_log    OFF
--日志文件
	slow_query_log_file    D:\Program Files (x86)\mysql-5.7.18-winx64\data\Jack-slow.log
  1. 修改当前配置
set global 变量名 = 值;
--例如,修改时间限制为20
slong_query_time = 20;
ps.也可以直接打开慢日志配置文件进行修改,但必须重启服务才能生效
  1. 查看MySQL慢日志
mysqldumpslow -s at -a  /usr/local/var/mysql/MacBook-Pro-3-slow.log
--verbose    版本
--debug      调试
--help       帮助
--v           版本-d           
调试模式-s ORDER     
排序方式
     what to sort by (al, at, ar, c, l, r, t), 'at' is default              
      al: average lock time
      ar: average rows sent
      at: average query time
       c: count               
       l: lock time
       r: rows sent
       t: query time-r           
反转顺序,默认文件倒序拍。reverse the sort order (largest last instead of first)-t NUM       
显示前N条
just show the top n queries-a           
不要将SQL中数字转换成N,字符串转换成S。
don't abstract all numbers to N and strings to 'S'-n NUM       
abstract numbers with at least n digits within names -g PATTERN   正则匹配;
grep: only consider stmts that include this string -h HOSTNAME  mysql机器名或者IP;
hostname of db server for *-slow.log filename (can be wildcard),default is '*', i.e. match all -i NAME      name of server instance (if using mysql.server startup script) -l  总时间中不减去锁定时间;
don't subtract lock time from total time
6.4 其他操作
- 查看表结构
    desc table_name;
 - 查看生成表的SQL
    show create table table_name;
 - 查看索引
    show index from  table_name;
 - 查看执行时间
    set profiling = 1;
    SQL...
    show profiles;

优化部分原文:https://blog.csdn.net/liutong123987/article/details/79384395

七、索引合并,覆盖索引

索引合并

1、索引合并是把几个索引的范围扫描合并成一个索引。
2、索引合并的时候,会对索引进行并集,交集或者先交集再并集操作,以便合并成一个索引。
3、这些需要合并的索引只能是一个表的。不能对多表进行索引合并。

覆盖索引

覆盖索引,select的数据列只用从索引中就能够取得,不必读取数据行,换句话说查询列要被所建的索引覆盖

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值