正确地创建和使用索引是实现高性能查询的基础。本文简要介绍MySQL聚簇索引。
聚簇索引
聚簇索引不是一种单独的索引类型,而是一种数据存储方式。
在InnoDB中的聚簇索引实际上是在同一个结构中保存了B-Tree索引和数据行。
当表有聚簇索引时,它的数据实际上存放在索引的叶子节点中。“聚簇”表示数据行和相邻的键值紧凑地存储在一起。因为无法同时把数据行存放在两个不同的地方,所以一个表只能有一个聚簇索引。InnoDB通过主键聚集数据。如果没有定义主键,InnoDB会选择一个唯一的非空索引作为聚簇索引。如果没有这样的索引,InnoDB会隐式定义一个主键来作为聚簇索引。
优缺点
聚簇索引的优点:
- 数据访问更快。聚簇索引把索引和数据保存在同一个B-Tree中,使得从聚簇索引中获取数据通常比非聚簇索引中查询要快。
- 使用覆盖索引扫描的查询可以直接使用叶子节点中的主键值。
如果在设计表和查询时能够充分利用聚簇索引的优点,就可以极大地提升性能。但聚簇索引也有一些缺点:
- 聚簇数据最大限度地提高了I/O密集应用的性能,但如果数据全部都放在内存中,则访问的顺序就没那么重要了,聚簇索引也就没有什么优势了。
- 插入速度严重依赖插入顺序。按照主键的顺序插入是加载数据到InnoDB表中速度最快的方式。但如果不是按照主键顺序加载数据,那么在加载完成后最好使用OPTIMIZE TABLE 命令重新组织一下表。
- 更新聚簇索引列的代价很高,因为会强制InnoDB将每个被更新的行移动到新的位置。
- 基于聚簇索引的表在插入新行,或者主键被更新导致需要移动数据行时,可能面临页分裂问题。频繁的页分裂会产生数据碎片,导致表占用更多的磁盘空间。
- 聚簇索引可能导致全表扫描变慢,尤其是行比较稀疏,或者由于页分裂导致数据存储不连续的时候。
- 二级索引(非聚簇索引)可能比想象的要更大,因为二级索引的叶子节点包含保持的不是指向行的物理位置的指针,而是行的主键值。这样的策略减少了当行出现移动或者数据页分裂时二级索引的维护工作。
- 二级索引访问需要两次索引查找。即通过二级索引查找行,存储引擎需要找到二级索引的叶子节点获取对于的主键值,然后根据这个值去聚簇索引中查找对应的行。
从聚簇索引的缺点可知,如果InnoDB表插入是乱序的,InnoDB就会频繁地做页分裂操作,以便为新的行分配空间。页分裂会导致移动大量数据,并会产生数据碎片。因此,使用InnoDB时应尽可能地按主键顺序插入数据。
InnoDB保存数据和索引抽象图如下所示: