MySQL数据库索引机制

一、MySQL缓冲区

MySQL是一款有客户端和服务端的网络应用,mysql是它的客户端,mysqld是它的服务端。服务端本质就是一个进程,它存在于内存当中。而我们存储在MySQL中的数据是保存在磁盘上的,当我们对MySQL中数据进行增删查改操作时,不可能是直接在磁盘上进行操作,而是将对应的数据加载到内存中,在内存中对数据进行操作,操作完毕之后再写回磁盘。

mysqld是MySQL的服务端,它存在于内存中,mysqld服务端启动起来以后会先向内存申请一段空间buffer pool,作为MySQL的数据缓冲区。MySQL是有着更高IO场景的应用软件,所以为了提高基本IO的效率,MySQL进行IO的基本单位是16KB。也就是说,磁盘这个硬件设备的基本单位是512字节,而MySQL InnoDB存储引擎使用16KB进行IO交互,即MySQL与磁盘进行数据交互的基本单位是16KB。这个基本数据单元,在MySQL这里叫做page(注意这里的page是MySQL的page,不是系统的page)。

当mysqld的buffer pool中充满大量page的时候,MySQL也要管理所有的page,管理的原则也是先描述再组织。MySQL会为每个page建立一个数据结构,该数据结构记录了每个page的详细信息,再通过特定的算法和数据结构将其组织起来。这里的组织方式就和MySQL的索引有关。

为什么MySQL和磁盘进行IO交互要采用page方案,而不是用多少加载多少呢?
如果我们向MySQL的一张表中插入五条数据,设其id值分别为1、2、3、4、5。如果MySQL要查找id=2的记录,第一次加载id=1,第二次加载id=2,一次一条记录,那么就需要2次IO。如果要找id=5的记录,那么就需要5次IO。但如果这五条数据一次性保存到MySQL的page中,只需要完成一次IO,下次再查询id=1、2、3、4、5时,完全不需要进行IO,直接是在内存中访问了,这样就会大大地减少了IO的次数。这种page方案其实是利用计算机的局部性原理实现的预加载策略。

二、MySQL的page

我们先来做一个实验,创建一张user表,表中将id设置为主键,它会默认生成主键索引。

create table if not exists user (
id int primary key,
age int not null,
name varchar(16) not null
);

然后我们向user表中依次插入以下数据,注意我们插入的时候id值是没有排序的,也就是乱序插入的。

mysql> insert into user (id, age, name) values(3, 18, '杨过');
Query OK, 1 row affected (0.01 sec)

mysql> insert into user (id, age, name) values(4, 16, '小龙女');
Query OK, 1 row affected (0.00 sec)

mysql> insert into user (id, age, name) values(2, 26, '黄蓉');
Query OK, 1 row affected (0.00 sec)

mysql> insert into user (id, age, name) values(5, 36, '郭靖');
Query OK, 1 row affected (0.00 sec)

mysql> insert into user (id, age, name) values(1, 56, '欧阳锋');
Query OK, 1 row affected (0.01 sec)

但当我们查看表中数据的时候,我们会发现,表中的数据自动按照id升序排序了。这是MySQL帮我们做的主键排序。MySQL为什么要帮我们做排序呢?这就需要理解MySQL单个page的内部结构了。

在这里插入图片描述

1.认识单个page

MySQL中要管理很多数据表文件,而要管理好这些文件,就需要先描述再组织。我们以上面创建的user表为例子,假设user表中的数据加载到MySQL的page中,呈现出来的是下图的形式:

在这里插入图片描述

不同的page在MySQL中,都是16KB,并且使用page_prev和page_next构成双向链表。而单个page内部的数据记录之间,也是通过单链表连接的。因为创建user表时我们添加了主键,所以MySQL会默认按照主键给我们的数据进行排序。排序的目的是为了优化查询的效率。在单个page内部存放数据的模块,实质上也是一个链表的结构,链表的特点就是增和删特别快,查询和修改比较慢,所以必须要优化查询效率,数据有序了是非常方便查询的,查询快了,修改也就快了。

除此之外,单个page内部还会引入页目录,就像一本书的目录一样,通过目录可以快速定位每一章每一节的起始页码。例如下图的例子,引入页目录以后,如果我们要查找id=4的记录,原本要线性遍历,查找4个节点才能找到。现在可以直接从页目录2开始查找,只需要查找2个节点就可以找到,这也是提高了查询的效率。但这必须建立在page内部数据是有序的基础上,所以MySQL对表内数据按主键排序也是为了更好地引入页目录。

在这里插入图片描述

2.认识多个页

MySQL每个页大小只有16KB,单个page大小固定,所以随着数据量的不断增大,16KB的单页不可能存下所有的数据,那么必定会有多个页来存储数据。

在这里插入图片描述

单个页内部通过目录可以快速定位到需要查找的数据记录,但这仅局限于单页内查找数据,如果我们的MySQL表数据很大,分布在多个page中,不仅要对单个page内部进行查询,还要在page之间进行查询,如果page之间查询还是按照链式查询的话,那么查询的效率依旧是很低的。

所以为了解决这个问题,MySQL为多个page之间也引入了目录结构。它会让几个page不存放任何数据记录,单独存放page的目录。每个目录对应每个page的第一个数据记录的地址,这样在多page之间查找的效率就得到了提高。

在这里插入图片描述

但是又有一个问题,如果顶层的用于保存目录的page很多了,我们查找目录不也是需要线性遍历吗?这样不就还是会导致查找效率低吗?所以为了解决这个问题,我们可以再加目录页,在最顶层再加一个目录页,用来保存下一层目录的目录,说起来可能很绕,其实就是通过这个新加的目录页,可以快速定位下一层的目录页。

在这里插入图片描述

上图中的结构其实就是一棵B+树,它通过层层的目录页可以快速定位下一层需要查找的位置,所以查找效率比线性遍历快很多。因此,MySQL的索引本质就是一种利于查找的数据结构。所以我们user表中创建的主键,MySQL就自动帮我们建立了主键索引。如果一张表中没有主键,MySQL也会自动形成隐藏主键。

3.聚簇索引和非聚簇索引

聚簇索引指的是B+树的叶子节点是将索引和数据存放在一起的,而非聚簇索引指的是B+树的叶子节点没有将索引和数据存放在一起。

MySQL的InnoDB存储引擎就是聚簇索引,它将用户的数据和索引数据保存在一起。而MySQL的MyISAM存储引擎是非聚簇索引,它将索引数据和用户数据分离,也就是说B+树的叶子节点没有数据,只有对应数据的地址。

我们可以通过建表查看聚簇索引和非聚簇索引的表现。我们创建一张user1表使用InnoDB存储引擎,创建一张user2表使用MyISAM存储引擎,在Linux下的/var/lib/mysql路径下查看刚刚创建的两张表,我们会发现user1表对应的只有两个文件,user2表对应的却有三个文件。

其中user1和user2都有一个.frm文件,这个文件保存的是表的结构信息。但user1除此之外只有一个.ibd文件,这个文件保存的就是表的数据信息和索引信息。而user2除此之外有两个文件,分别是.MYD文件和.MYI文件,其中.MYD文件对应的是数据信息,.MYI文件对应的是索引信息。因此从这里就可以看出来,InnoDB是聚簇索引,MyISAM是非聚簇索引。

在这里插入图片描述

当然,MySQL除了默认会建立主键索引之外,我们用户也有可能建立按照其它列信息建立的索引,一般这种索引称为辅助索引或者普通索引。对于MyISAM存储引擎,建立辅助索引和主键索引没有区别,无非就是主键不能重复,而非主键可以重复。但是InnoDB存储引擎的辅助索引和主键索引却不一样,InnoDB的辅助索引中叶子节点并没有数据,而只有列数据对应记录的主键值,所以在查找数据的时候,通过辅助索引找到目标记录的主键值,然后用主键值在主键索引中检索获得记录,这个过程称为回表的过程。所以如果是通过辅助索引来查找数据,需要查找两遍索引。

三、索引的操作

1.创建主键索引

第一种方式:
在建表的时候,直接在字段后面指定primary key,即给某一字段添加主键。

mysql> create table user1(
    -> id int primary key,
    -> name varchar(20) not null
    -> );
Query OK, 0 rows affected (0.05 sec)

mysql> show index from user1\G
*************************** 1. row ***************************
        Table: user1
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
1 row in set (0.05 sec)

第二种方式:
在创建表的最后,指定某列或某几列为主键索引。

mysql> create table user2(
    -> id int,
    -> name varchar(20),
    -> primary key(id)
    -> );
Query OK, 0 rows affected (0.03 sec)

mysql> show index from user2\G
*************************** 1. row ***************************
        Table: user2
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
1 row in set (0.00 sec)

第三种方式:
创建表以后再添加主键索引。

mysql> create table user3(
    -> id int,
    -> name varchar(20)
    -> );
Query OK, 0 rows affected (0.04 sec)

mysql> alter table user3 add primary key(id);
Query OK, 0 rows affected (0.04 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show index from user3\G
*************************** 1. row ***************************
        Table: user3
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
1 row in set (0.00 sec)

主键索引的特点

  1. 一个表中,最多有一个主键索引,当然也可以使用复合主键。
  2. 主键索引的效率高,因为主键不可重复。
  3. 创建主键索引的列,它的值不能为null,且不能重复。
  4. 主键索引的列基本上是int。

2.创建唯一索引

第一种方式:
在表定义时,直接在某列后直接指定unique唯一属性。

mysql> create table user4(
    -> id int primary key,
    -> name varchar(20) unique
    -> );
Query OK, 0 rows affected (0.03 sec)

mysql> show index from user4\G
*************************** 1. row ***************************
        Table: user4
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user4
   Non_unique: 0
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第二种方式:
创建表时,在表的后面指定某列或某几列为unique属性。

mysql> create table user5(
    -> id int primary key,
    -> name varchar(20),
    -> unique(name)
    -> );
Query OK, 0 rows affected (0.03 sec)

mysql> show index from user5\G
*************************** 1. row ***************************
        Table: user5
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user5
   Non_unique: 0
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第三种方式:
创建表之后再添加唯一索引。

mysql> create table user6(
    -> id int primary key,
    -> name varchar(20)
    -> );
Query OK, 0 rows affected (0.04 sec)

mysql> alter table user6 add unique(name);
Query OK, 0 rows affected (0.06 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show index from user6\G
*************************** 1. row ***************************
        Table: user6
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user6
   Non_unique: 0
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

唯一索引的特点

  1. 一个表中,可以有多个唯一索引。
  2. 唯一索引查询效率高。
  3. 如果在某一列上建立唯一索引,必须保证这列不能有重复数据。
  4. 如果一个唯一索引上指定not null,那么等价于主键索引。

3.创建普通索引

第一种方式:
在表定义的最后,指定某列为索引。

mysql> create table user7(
    -> id int primary key,
    -> name varchar(20),
    -> email varchar(20),
    -> index(name)
    -> );
Query OK, 0 rows affected (0.04 sec)

mysql> show index from user7\G
*************************** 1. row ***************************
        Table: user7
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user7
   Non_unique: 1
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第二种方式:
在创建完表之后,指定某列为普通索引。

mysql> create table user8(
    -> id int primary key,
    -> name varchar(20),
    -> email varchar(20)
    -> );
Query OK, 0 rows affected (0.04 sec)

mysql> alter table user8 add index(name);
Query OK, 0 rows affected (0.03 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show index from user8\G
*************************** 1. row ***************************
        Table: user8
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user8
   Non_unique: 1
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第三种方式:
在表创建完之后,再创建一个指定索引名的索引。这种方法不建议使用,建议直接就用列名做索引名,因为列名本身就具有唯一性,额外维护新的索引名代价比较大。

mysql> create table user9(
    -> id int primary key,
    -> name varchar(20),
    -> email varchar(20)
    -> );
Query OK, 0 rows affected (0.06 sec)

mysql> create index name_index on user9(name);
Query OK, 0 rows affected (0.04 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show index from user9\G
*************************** 1. row ***************************
        Table: user9
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user9
   Non_unique: 1
     Key_name: name_index
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

普通索引的特点

  1. 一个表中可以有多个普通索引,普通索引在实际开发中用的比较多。
  2. 如果某列需要创建索引,但是该列有重复的值,那么我们就应该使用普通索引。

4.查询索引的方法

第一种方法show keys from 表名

mysql> show keys from user9\G
*************************** 1. row ***************************
        Table: user9
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user9
   Non_unique: 1
     Key_name: name_index
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第二种方法show index from 表名

mysql> show index from user9\G
*************************** 1. row ***************************
        Table: user9
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user9
   Non_unique: 1
     Key_name: name_index
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.01 sec)

第三种方法(信息比较简略)desc 表名

mysql> desc user9;
+-------+-------------+------+-----+---------+-------+
| Field | Type        | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+-------+
| id    | int(11)     | NO   | PRI | NULL    |       |
| name  | varchar(20) | YES  | MUL | NULL    |       |
| email | varchar(20) | YES  |     | NULL    |       |
+-------+-------------+------+-----+---------+-------+
3 rows in set (0.00 sec)

5.删除索引的方法

  1. 删除主键索引:alter table 表名 drop primary key;
  2. 删除其它索引:alter table 表名 drop index 索引名,索引名就是show keys from 表名中的key_name字段。
  3. 使用drop删除:drop index 索引名 on 表名;

6.索引创建原则

  • 比较频繁作为查询条件的字段应该创建索引。
  • 唯一性太差的字段不适合单独创建索引,即使频繁作为查询条件。
  • 更新非常频繁的字段不适合创建索引。
  • 不会出现在where子句中的字段不该创建索引。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值