聚簇索引与非聚簇索引
聚簇索引:
并不是种单独的索引类型,而是一种数据存储方式。
InnoDB中的聚簇索引实际上是在同一个结构上保存了B-Tree索引和数据行
当表有聚簇索引时,它的数据行实际上存放在索引的叶子页中,“聚簇”表示数据行和相邻的键值紧凑的存储在一起。因为无法同时将数据行存放在俩个不同的地方,所以一个表只能有一个聚簇索引。
聚簇索引中,叶子节点中保存了行的全部数据(主键值、事务ID、回滚指针(rollback pointer用于事务和MVCC)和余下的列)
如果没有定义主键,InnoDB会选择一个唯一的非空索引来代替。
优势:
-
可以把相关数据保存在一起(减少磁盘I/O)
-
数据访问更快(聚簇索引将索引和数据保存在同一个B-Tree中,所以从聚簇索引中查找数据一般比在非聚簇索引查找快)
-
使用覆盖索引扫描的查询可以直接使用叶节点中的主键值
缺点:
- 聚簇索引最大限度提高了I/O密集型应用的性能,但如果data全部放在了内存中,聚簇索引的优势就会小很多
- 插入速度严重依赖于主键的顺序,按照主键的顺序插入时,速度最快,如果不是按照主键顺序加载数据,最好在加载完成后使用OPTIMIZE TABLE命令重新组织一下表
- 基于聚簇索引的表在插入新行时,或者要移动行时,可能面临“页分裂”的问题,当 行的主键要求这一行插入到某个已满的页中,存储引擎会将这个页分裂为俩页来容纳这一行。(会导致表占用更多的磁盘空间)
- 导致全表扫描变慢,尤其是行比较稀疏,或是由于页分裂带着数据存储不连续时。
- 二级索引可能比想象的要大,其叶子结点包含了引用行的主键列
- 二级索引访问需要俩次索引查找,而不是一次
非聚簇索引:
非聚簇索引记录的物理顺序与逻辑顺序没有必然的联系,与数据的存储物理结构没有关系;一个表对应的非聚簇索引可以有多条,根据不同列的约束可以建立不同要求的非聚簇索引
- InnoDB的二级索引的叶子包含主键值,而不是行指针,这减小了移动数据或者数据页面分裂时维护二级索引的开销,因为InnoDB不需要更新索引的行指针
我在网上看了很多博客,看非聚簇索引的概念很容易看懂,但是一直想要确定一下什么索引属于非聚簇索引,在翻看《高性能MySQL》时,看到了一句话,在聚簇索引的缺点那里,原话大概是
“非聚簇索引(二级索引)可能比想象的要大,其叶子结点包含了引用行的主键列”
这才让我敢肯定:非聚簇索引约等于InnoDB中的二级索引(唯一索引,覆盖索引等)
参考《高性能MySQL》