MySQL数据库索引机制

最新推荐文章于 2023-07-30 23:49:28 发布

JJP不会CPP

最新推荐文章于 2023-07-30 23:49:28 发布

阅读量1k

点赞数 1

分类专栏： MySQL 文章标签：数据库 mysql adb c++ linux java

本文链接：https://blog.csdn.net/2301_76366823/article/details/131522526

版权

MySQL 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

一、MySQL缓冲区
二、MySQL的page
三、索引的操作

一、MySQL缓冲区

MySQL是一款有客户端和服务端的网络应用，mysql是它的客户端，mysqld是它的服务端。服务端本质就是一个进程，它存在于内存当中。而我们存储在MySQL中的数据是保存在磁盘上的，当我们对MySQL中数据进行增删查改操作时，不可能是直接在磁盘上进行操作，而是将对应的数据加载到内存中，在内存中对数据进行操作，操作完毕之后再写回磁盘。

mysqld是MySQL的服务端，它存在于内存中，mysqld服务端启动起来以后会先向内存申请一段空间buffer pool，作为MySQL的数据缓冲区。MySQL是有着更高IO场景的应用软件，所以为了提高基本IO的效率，MySQL进行IO的基本单位是16KB。也就是说，磁盘这个硬件设备的基本单位是512字节，而MySQL InnoDB存储引擎使用16KB进行IO交互，即MySQL与磁盘进行数据交互的基本单位是16KB。这个基本数据单元，在MySQL这里叫做page(注意这里的page是MySQL的page，不是系统的page)。

当mysqld的buffer pool中充满大量page的时候，MySQL也要管理所有的page，管理的原则也是先描述再组织。MySQL会为每个page建立一个数据结构，该数据结构记录了每个page的详细信息，再通过特定的算法和数据结构将其组织起来。这里的组织方式就和MySQL的索引有关。

为什么MySQL和磁盘进行IO交互要采用page方案，而不是用多少加载多少呢？
如果我们向MySQL的一张表中插入五条数据，设其id值分别为1、2、3、4、5。如果MySQL要查找id=2的记录，第一次加载id=1，第二次加载id=2，一次一条记录，那么就需要2次IO。如果要找id=5的记录，那么就需要5次IO。但如果这五条数据一次性保存到MySQL的page中，只需要完成一次IO，下次再查询id=1、2、3、4、5时，完全不需要进行IO，直接是在内存中访问了，这样就会大大地减少了IO的次数。这种page方案其实是利用计算机的局部性原理实现的预加载策略。

二、MySQL的page

我们先来做一个实验，创建一张user表，表中将id设置为主键，它会默认生成主键索引。

create table if not exists user (
id int primary key,
age int not null,
name varchar(16) not null
);

然后我们向user表中依次插入以下数据，注意我们插入的时候id值是没有排序的，也就是乱序插入的。

mysql> insert into user (id, age, name) values(3, 18, '杨过');
Query OK, 1 row affected (0.01 sec)

mysql> insert into user (id, age, name) values(4, 16, '小龙女');
Query OK, 1 row affected (0.00 sec)

mysql> insert into user (id, age, name) values(2, 26, '黄蓉');
Query OK, 1 row affected (0.00 sec)

mysql> insert into user (id, age, name) values(5, 36, '郭靖');
Query OK, 1 row affected (0.00 sec)

mysql> insert into user (id, age, name) values(1, 56, '欧阳锋');
Query OK, 1 row affected (0.01 sec)

但当我们查看表中数据的时候，我们会发现，表中的数据自动按照id升序排序了。这是MySQL帮我们做的主键排序。MySQL为什么要帮我们做排序呢？这就需要理解MySQL单个page的内部结构了。

在这里插入图片描述

1.认识单个page

MySQL中要管理很多数据表文件，而要管理好这些文件，就需要先描述再组织。我们以上面创建的user表为例子，假设user表中的数据加载到MySQL的page中，呈现出来的是下图的形式：

在这里插入图片描述

不同的page在MySQL中，都是16KB，并且使用page_prev和page_next构成双向链表。而单个page内部的数据记录之间，也是通过单链表连接的。因为创建user表时我们添加了主键，所以MySQL会默认按照主键给我们的数据进行排序。排序的目的是为了优化查询的效率。在单个page内部存放数据的模块，实质上也是一个链表的结构，链表的特点就是增和删特别快，查询和修改比较慢，所以必须要优化查询效率，数据有序了是非常方便查询的，查询快了，修改也就快了。

除此之外，单个page内部还会引入页目录，就像一本书的目录一样，通过目录可以快速定位每一章每一节的起始页码。例如下图的例子，引入页目录以后，如果我们要查找id=4的记录，原本要线性遍历，查找4个节点才能找到。现在可以直接从页目录2开始查找，只需要查找2个节点就可以找到，这也是提高了查询的效率。但这必须建立在page内部数据是有序的基础上，所以MySQL对表内数据按主键排序也是为了更好地引入页目录。

在这里插入图片描述

2.认识多个页

MySQL每个页大小只有16KB，单个page大小固定，所以随着数据量的不断增大，16KB的单页不可能存下所有的数据，那么必定会有多个页来存储数据。

在这里插入图片描述

单个页内部通过目录可以快速定位到需要查找的数据记录，但这仅局限于单页内查找数据，如果我们的MySQL表数据很大，分布在多个page中，不仅要对单个page内部进行查询，还要在page之间进行查询，如果page之间查询还是按照链式查询的话，那么查询的效率依旧是很低的。

所以为了解决这个问题，MySQL为多个page之间也引入了目录结构。它会让几个page不存放任何数据记录，单独存放page的目录。每个目录对应每个page的第一个数据记录的地址，这样在多page之间查找的效率就得到了提高。

在这里插入图片描述

但是又有一个问题，如果顶层的用于保存目录的page很多了，我们查找目录不也是需要线性遍历吗？这样不就还是会导致查找效率低吗？所以为了解决这个问题，我们可以再加目录页，在最顶层再加一个目录页，用来保存下一层目录的目录，说起来可能很绕，其实就是通过这个新加的目录页，可以快速定位下一层的目录页。

在这里插入图片描述

上图中的结构其实就是一棵B+树，它通过层层的目录页可以快速定位下一层需要查找的位置，所以查找效率比线性遍历快很多。因此，MySQL的索引本质就是一种利于查找的数据结构。所以我们user表中创建的主键，MySQL就自动帮我们建立了主键索引。如果一张表中没有主键，MySQL也会自动形成隐藏主键。

3.聚簇索引和非聚簇索引

聚簇索引指的是B+树的叶子节点是将索引和数据存放在一起的，而非聚簇索引指的是B+树的叶子节点没有将索引和数据存放在一起。

MySQL的InnoDB存储引擎就是聚簇索引，它将用户的数据和索引数据保存在一起。而MySQL的MyISAM存储引擎是非聚簇索引，它将索引数据和用户数据分离，也就是说B+树的叶子节点没有数据，只有对应数据的地址。

我们可以通过建表查看聚簇索引和非聚簇索引的表现。我们创建一张user1表使用InnoDB存储引擎，创建一张user2表使用MyISAM存储引擎，在Linux下的/var/lib/mysql路径下查看刚刚创建的两张表，我们会发现user1表对应的只有两个文件，user2表对应的却有三个文件。

其中user1和user2都有一个.frm文件，这个文件保存的是表的结构信息。但user1除此之外只有一个.ibd文件，这个文件保存的就是表的数据信息和索引信息。而user2除此之外有两个文件，分别是.MYD文件和.MYI文件，其中.MYD文件对应的是数据信息，.MYI文件对应的是索引信息。因此从这里就可以看出来，InnoDB是聚簇索引，MyISAM是非聚簇索引。

在这里插入图片描述

当然，MySQL除了默认会建立主键索引之外，我们用户也有可能建立按照其它列信息建立的索引，一般这种索引称为辅助索引或者普通索引。对于MyISAM存储引擎，建立辅助索引和主键索引没有区别，无非就是主键不能重复，而非主键可以重复。但是InnoDB存储引擎的辅助索引和主键索引却不一样，InnoDB的辅助索引中叶子节点并没有数据，而只有列数据对应记录的主键值，所以在查找数据的时候，通过辅助索引找到目标记录的主键值，然后用主键值在主键索引中检索获得记录，这个过程称为回表的过程。所以如果是通过辅助索引来查找数据，需要查找两遍索引。

三、索引的操作

1.创建主键索引

第一种方式：
在建表的时候，直接在字段后面指定primary key，即给某一字段添加主键。

mysql> create table user1(
    -> id int primary key,
    -> name varchar(20) not null
    -> );
Query OK, 0 rows affected (0.05 sec)

mysql> show index from user1\G
*************************** 1. row ***************************
        Table: user1
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
1 row in set (0.05 sec)

第二种方式：
在创建表的最后，指定某列或某几列为主键索引。

mysql> create table user2(
    -> id int,
    -> name varchar(20),
    -> primary key(id)
    -> );
Query OK, 0 rows affected (0.03 sec)

mysql> show index from user2\G
*************************** 1. row ***************************
        Table: user2
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
1 row in set (0.00 sec)

第三种方式：
创建表以后再添加主键索引。

mysql> create table user3(
    -> id int,
    -> name varchar(20)
    -> );
Query OK, 0 rows affected (0.04 sec)

mysql> alter table user3 add primary key(id);
Query OK, 0 rows affected (0.04 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show index from user3\G
*************************** 1. row ***************************
        Table: user3
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
1 row in set (0.00 sec)

主键索引的特点：

一个表中，最多有一个主键索引，当然也可以使用复合主键。
主键索引的效率高，因为主键不可重复。
创建主键索引的列，它的值不能为null，且不能重复。
主键索引的列基本上是int。

2.创建唯一索引

第一种方式：
在表定义时，直接在某列后直接指定unique唯一属性。

mysql> create table user4(
    -> id int primary key,
    -> name varchar(20) unique
    -> );
Query OK, 0 rows affected (0.03 sec)

mysql> show index from user4\G
*************************** 1. row ***************************
        Table: user4
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user4
   Non_unique: 0
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第二种方式：
创建表时，在表的后面指定某列或某几列为unique属性。

mysql> create table user5(
    -> id int primary key,
    -> name varchar(20),
    -> unique(name)
    -> );
Query OK, 0 rows affected (0.03 sec)

mysql> show index from user5\G
*************************** 1. row ***************************
        Table: user5
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user5
   Non_unique: 0
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第三种方式：
创建表之后再添加唯一索引。

mysql> create table user6(
    -> id int primary key,
    -> name varchar(20)
    -> );
Query OK, 0 rows affected (0.04 sec)

mysql> alter table user6 add unique(name);
Query OK, 0 rows affected (0.06 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show index from user6\G
*************************** 1. row ***************************
        Table: user6
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user6
   Non_unique: 0
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

唯一索引的特点：

一个表中，可以有多个唯一索引。
唯一索引查询效率高。
如果在某一列上建立唯一索引，必须保证这列不能有重复数据。
如果一个唯一索引上指定not null，那么等价于主键索引。

3.创建普通索引

第一种方式：
在表定义的最后，指定某列为索引。

mysql> create table user7(
    -> id int primary key,
    -> name varchar(20),
    -> email varchar(20),
    -> index(name)
    -> );
Query OK, 0 rows affected (0.04 sec)

mysql> show index from user7\G
*************************** 1. row ***************************
        Table: user7
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user7
   Non_unique: 1
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第二种方式：
在创建完表之后，指定某列为普通索引。

mysql> create table user8(
    -> id int primary key,
    -> name varchar(20),
    -> email varchar(20)
    -> );
Query OK, 0 rows affected (0.04 sec)

mysql> alter table user8 add index(name);
Query OK, 0 rows affected (0.03 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show index from user8\G
*************************** 1. row ***************************
        Table: user8
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user8
   Non_unique: 1
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第三种方式：
在表创建完之后，再创建一个指定索引名的索引。这种方法不建议使用，建议直接就用列名做索引名，因为列名本身就具有唯一性，额外维护新的索引名代价比较大。

mysql> create table user9(
    -> id int primary key,
    -> name varchar(20),
    -> email varchar(20)
    -> );
Query OK, 0 rows affected (0.06 sec)

mysql> create index name_index on user9(name);
Query OK, 0 rows affected (0.04 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show index from user9\G
*************************** 1. row ***************************
        Table: user9
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user9
   Non_unique: 1
     Key_name: name_index
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

普通索引的特点：

一个表中可以有多个普通索引，普通索引在实际开发中用的比较多。
如果某列需要创建索引，但是该列有重复的值，那么我们就应该使用普通索引。

4.查询索引的方法

第一种方法：show keys from 表名

mysql> show keys from user9\G
*************************** 1. row ***************************
        Table: user9
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user9
   Non_unique: 1
     Key_name: name_index
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.00 sec)

第二种方法：show index from 表名

mysql> show index from user9\G
*************************** 1. row ***************************
        Table: user9
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user9
   Non_unique: 1
     Key_name: name_index
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
2 rows in set (0.01 sec)

第三种方法(信息比较简略)：desc 表名

mysql> desc user9;
+-------+-------------+------+-----+---------+-------+
| Field | Type        | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+-------+
| id    | int(11)     | NO   | PRI | NULL    |       |
| name  | varchar(20) | YES  | MUL | NULL    |       |
| email | varchar(20) | YES  |     | NULL    |       |
+-------+-------------+------+-----+---------+-------+
3 rows in set (0.00 sec)