提出聚簇索引这个概念的意义是什么?用于解决什么问题?
优化数据物理的存储,减少磁盘 I/O 开销,减少磁盘碎片: 聚簇索引重新组织表的行,使得物理存储与索引的逻辑顺序一致。这样的优化可以减少磁盘 I/O 操作,提高数据检索速度。聚簇索引可以减少磁盘碎片,因为相关数据被组织在一起存储,而不是分散在不同的页面中。(聚簇索引可以减少磁盘碎片,也可能也会导致碎片的产生,特别是在频繁插入和删除记录的情况下。因为聚簇索引涉及到物理存储顺序的重新排列,所以在某些情况下,如非顺序的插入操作,可能会增加磁盘碎片。)
提升查询效率: mysql一般使用3层到4层b+树,在两千万条数据中查询一条数据,只需要3到4次I/O操作。聚簇索引的物理存储方式使得范围查询(例如,基于范围的查询或排序操作)的性能得到提升,因为相关数据在物理上是相邻存储的。
聚簇索引的产生:
聚簇索引在创建表的时候自动产生,表中的行按照聚簇索引顺序存储,表中的行直接存储在聚簇索引形成的b+树的叶子节点中。
mysql在建表时是如何选择那个字段作为聚簇索引的?
如果表定义了主键,MySQL 的 InnoDB 存储引擎会自动使用这些主键列作为聚簇索引的键。
如果一个表没有明确定义主键,InnoDB 存储引擎会尝试使用表中的第一个唯一索引(其所有列都被定义为非空)作为聚簇索引。
如果表中没有合适的唯一索引,InnoDB 会自动生成一个隐藏的、唯一的聚簇索引。这个隐藏的索引是一个内部生成的唯一ID,对用户是不可见的。