B+Tree 介绍与在 Mysql 中的应用_b+tree 实现的文件搜索的app-CSDN博客

1、B树简绍

B 树又称平衡多路查找树。

1.1、用阶来描述 B 树

一个 m 阶的 B 树具有一下特点：

1 每个结点最多包含 m 个子节点;
2 除根节点外，每个分支结点至少有 ceil(m/2) 个子节点；
3 根结点若非叶子结点，则至少 2 个子节点；
4 所有叶子结点都出现在同一层；
5 有 n 个子结点的非叶子结点恰好有 n - 1 个关键字，关键字按递增顺序排序。

1.2、用图片描述 B 树

下图是一个 4 阶的 B 树

4 阶 B 树

下图是一个 3 阶的 B 树

3 阶 B 树

1.3、用代码描述 B 树

#define m 1024
struct BTNode;
typedef struct BTNode * PBTNode;
struct BTNode {
        int keyNum; // 实际关键字个数，key < m
        PBTNode parent; // 指向父节点
        PBTNode *ptr; // 子树指向向量:ptr[0]...ptr[keyNum]
        KeyType *key; // 关键字向量：key[0]...key[keyNum-1]
};
typedef struct BTNode * BTree;
typedef struct BTree * PBTree

2、B+ 树介绍

B+ 树是 B 树的变形。一棵 m 阶 B+ 树和 m 阶 B 树的异同点如下：

1 有 n 个子结点的 B+ 树有 n 个关键字，而 B 树则是有 n -1 个关键字；
2 B+ 树的内结点不存储 data ，只存储 key；
3 B+ 树的所有叶子结点中包含所有信息，叶子结点本身依关键字大小依次顺序链接；
4 B+ 树所有的非终端结点可以看成是索引部分，结点中仅含有其子结点的最大（或最小）关键字。

2.1、用图片描述 B+ 树

下图是一个三阶的 B+ 树

三阶 B+ 树

3、B+树查找过程及其效率

上图中，假设需要查询 key 为 80 的数据，首先需要将根结点加载，通过比较，80 大于 65，则会通过 P3 指针再加载对应的结点，在将结点上的 key 与 80 比较，最后定位在 P2 指针对应的区域在进行加载获取数据。
上述查找过程，一共进行了 3 次加载过程，加载次数本质上 B+ 树的树高。实际上，B+ 树的查找效率取决于树高 h。
假设当前数据表的数据量为 N，每个结点的关键字数量是 m，则树高 :

树高公式

在根据对数函数的函数特性：

对数函数

当数据量 N 情况一定的情况下，m 越大，h 越小。数据库系统的设计者巧妙利用了磁盘预读原理，将一个节点的大小设为等于一个页，这样每个节点只需要一次I/O就可以完全载入。而 m = 磁盘块大小/数据项大小，磁盘块的大小就是数据页的大小，是固定的，一般是 4k。
从上可以看出，要提高 B+ 树的查询效率，就需要降低树高，要降低树高，数据库系统就要求数据项的大小尽量小。Mysql 就采用 B+ 树作为索引文件，索引字段的大小与数据项的大小成正比，因此在数据库查询调优中，就有要求索引字段尽量小。短小的索引字段，能够有效的降低树高，提高查询效率。

4、B+ 树结点数据的插入

B+ 树大致的插入算法如下：

1）寻找需要插入数据的目标叶节点；
2）判断插入的数据是否比 B+ 树目前最小值还小，如果是更新全树非叶结点的最小值；
3）判断目标叶结点是否数据满，未满的情况下直接插入数据；
4）在叶结点已经满的情况下，分裂叶结点，将包括待插入数据在内的数据均分成两个新结点；
5）在分裂的情况下，将新的结点在父节点未出现的最小值插入父节点；
6）父节点重复插入数据的过程，直到没有新结点需要分裂的情况；
7）如果是根结点需要分裂，将它视为有一个空的父节点，重复上述插入数据的过程。

下面以具体的数据演示插入数据的过程

三阶 B+ 树

插入数据 7，更新所有所有非叶结点最小值，然后插入 7

更新最小值

插入数据 7

插入数据 6，更新所有非叶节点最小值，然后拆分叶结点

更新最小值

插入数据待拆分

拆分结点，将两个结点中未在父节点出现的最小值插入父结点

拆分结点

拆分父节点

将拆分的新结点中未在父节点（空结点）出现的最小值插入父节点

更新根结点

当然，为了减少结点的拆分，提高磁盘利用率，减少磁盘 I/O 次数，B+ 树的插入还提供了旋转功能。当叶结点已满但其左右兄弟节点没有满的情况下，B+ 树并不急于去做拆分操作，而是将记录移到当前所在页的兄弟节点上。通常情况下，左兄弟会被先检查用来做旋转操作。
例如如下情况，在插入 85 的情况下可以进行左旋操作

左旋示例 B+ 树

插入85

左旋操作

4、B+ 树在 Mysql 中的应用

在 Mysql 中，索引是采用 B+ 树的结构进行组织，从而形成索引文件。索引是属于存储引擎级别的概念，下面主要介绍 MyISAM 和 InnoDB 两个存储引擎的索引实现方式。

4.1、非聚集索引存储引擎 MyISAM

此处借用他人的图片进行说明，MyISAM 存储引擎在 B+ 树的叶结点，存放的是数据记录的地址。下面两种张图分别展示了主键与辅助索引的 B+ 树的结构。

主键 B+ 树

辅助索引 B+ 树

所谓的聚集非聚集是针对叶结点的 data 中是否存储有完整的数据记录来区分的，MyISAM 中 data 只存储数据记录的地址，因而是非聚集索引。

4.2、聚集索引存储引擎 InnoDB

此处同样借用他人的图片进行说明。

主键索引

辅助索引

从上图可以看出，InnoDB 的所有辅助索引都引用主键作为 data 域。聚集索引使得在利用主键进行查询时，搜索十分高效，而利用辅助索引进行查询是，需要检索两遍索引。
知道InnoDB的索引实现后，就很容易明白为什么不建议使用过长的字段作为主键，因为所有辅助索引都引用主索引，过长的主索引会令辅助索引变得过大。再例如，用非单调的字段作为主键在InnoDB中不是个好主意，因为InnoDB数据文件本身是一颗B+Tree，非单调的主键会造成在插入新记录时数据文件为了维持B+Tree的特性而频繁的分裂调整，十分低效，而使用自增字段作为主键则是一个很好的选择。

作者：xuxiangwork
链接：https://www.jianshu.com/p/000da6f11629
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。