四、mysql——InnoDB中区和段的概念

本文链接：https://blog.csdn.net/m0_45364328/article/details/124380505

本文介绍了InnoDB存储引擎中页、区、段和碎片区的概念。一个区由64个连续的页组成，每个页默认大小为16KB，总计1MB。区的引入是为了降低随机IO，提高查询效率。段是根据B+树叶子节点和非叶子节点划分的存储空间，而碎片区则是为了解决小表空间浪费问题，允许不同段的数据共用存储空间，以单个页面或部分区的形式存在。这种机制有利于优化存储管理和查询性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提示：一个页的大小默认是16kb，一个表空间的大小是很大的，里面包含了非常多的页，因此为了更好的管理这些页，就引入了区的概念，64个连续的页就是区，因此区默认大小是1mb。

前言

一、区的概念

1.1区的概念

一个页的大小默认是16kb，一个表空间的大小是很大的，里面包含了非常多的页，因此为了更好的管理这些页，就引入了区的概念，64个连续的页就是区，因此区默认大小是1mb。

1.2 为什么引入区

首先一定要明确的是完整的数据是存储在B+树的叶子节点的，你也可以认为对于InnoDB类型的表，数据就是逻辑存储结构节是这个表（因为InnoDB一定有主键，还记得前面对于InnoDB类型的表主键的生成策略吧，如果忘记了可以回到B+树这个章节看看）。无论怎样着我们的完整数据是存储在聚簇索引的叶子节点的，二级索引的话，叶子中存储表中的索引列和主键列。无论是二级索引还是聚簇索引，页与页之间是按照索引列升序形成的双向链表（不考虑8.0的降序索引），但是这些页在磁盘上的存储，不一定是连续的，也就是我们在读取页中数据的时候，其实整体采用的是随机IO，个别页与页之间可能存储是连续的，采用是顺序IO，区的定义是把64个连续的页定义为区，就是在磁盘中划分64个16kb连续的空间，那在读这64个页时就是连续的了，进而降低了随机IO的次数，提高查询效率。

注意：
在表中数据量很大的时候，为某个索引分配空间的时候，就会按照区为单位分配空间，而不再按页（一开始按页，当连续分配32个页的时候，就会按照区来分配空间），甚至在表中数据量特别大时，还可能一次分配多个连续的区。

二、段

InnoDB对B+树的叶子节点和非叶子节点进行了区别对待，也就是说叶子节点有自己独立的区，非叶子节点也有自己独立的区。存放区的结合就叫做段，InnoDB把所以分为两个段：叶子节点段和非叶子节点段。

三、碎片区

默认一个InnoDB只有聚簇索引（不考录二级索引），上面说一个索引分两个段，而段是以区为单位申请存储空间的，一个区默认占用1mb存储空间。那一个索引最小也得2mb，如果数据量很小，就几条记录，但是我上来就占用2mb的存储空间合适嘛？现在的问题，在于我们之前说的区都是非常纯粹的，也就是一个区被整个分配给某一个段，或者说区中的所有数据都是都是为了存储同一段数据而存在的。即使段的数据填不满区中所有的页面，剩下的页面也不能挪为他用。现在考察【以完整的区为单位分配给某个段时，对于数据量较小的表来说太浪费存储空间】这种为情况，InnoDB提出了碎片区的概念。

1、一个碎片区中，并不是所有的页属于段A，有些页属于段B，有些页甚至不属于任何段。
2、碎片区直属于表空间，并不属于任何一个段（碎片区里面的页可能属于某个段）。
3、为某个段分配存储空间的策略是这样的：
①在刚开始向表中插入数据时，段是某个碎片区以单个页面为单位来分配存储空间的。
②当某个段已经占用了32个碎片区页面后，就会以完整的区为单位分配存储空间（原先占用的碎片区页面并不会被复制到新申请的完整的区中）

注意：
碎片区可以理解为，某两个段中数据很少的时候，加入就一条记录，我直接放一个段中不合适，太浪费空间了，索性InnoDB直接划一个"区"（加上引号，这个不是一个我们传统意义上的区）出来，本来存放在段A中的一条记录，你就直接占用区中一个页，本来属于段B的一条数据，你也别自己占用一个段了，你也放这个"区"里。那我申请的这个"区"，段A和段B的数据都有，那我显然不能说属于任何一个段，那就直接共用起来，我属于表空间吧。。。。为什么说“碎片”呢？因为传统意义上的区中页都属于同一个段，但是我这个“区”既可能有段A的页，也可能有B的等等，所以也就叫碎片区了。