MySQL索引原理分析（为什么使用B+树）

最新推荐文章于 2024-05-10 10:34:19 发布

古月的三个锦囊

最新推荐文章于 2024-05-10 10:34:19 发布

阅读量1.1k

点赞数 2

为什么哈希表、完全平衡二叉树、B树、B+树都可以优化查询，为何Mysql独独喜欢B+树？

1、哈希表有什么特点？
假如有这么一张表(表名：sanguo)：
在这里插入图片描述
现在对name字段建立哈希索引：

注意字段值所对应的数组下标是哈希算法随机算出来的，所以可能出现哈希冲突。那么对于这样一个索引结构，现在来执行下面的sql语句：

select * from sanguo where name='周瑜'；

可以直接对‘周瑜’按哈希算法算出来一个数组下标，然后可以直接从数据中取出数据并拿到锁对应那一行数据的地址，进而查询那一行数据。此时查询效率还是蛮高的。
那么如果现在执行下面的sql语句：

select * from sanguo where name>‘周瑜’;

则无能为力，因为哈希表的特点就是可以快速的精确查询，但是不支持范围查询

2、如果用完全平衡二叉树呢？
还是上面的表数据用完全平衡二叉树表示如下图（为了简单，数据对应的地址就不画在图中了。）：
在这里插入图片描述
图中的每一个节点实际上应该有四部分：
左指针，指向左子树
键值
键值所对应的数据的存储地址
右指针，指向右子树
另外需要提醒的是，二叉树是有顺序的，简单的说就是“左边的小于右边的”假如我们现在来查找‘周瑜’，需要找2次（第一次曹操，第二次周瑜），比哈希表要多一次。而且由于完全平衡二叉树是有序的，所以也是支持范围查找的。

3、如果用完全平衡二叉树呢？
还是上面的表数据用B树表示如下图（为了简单，数据对应的地址就不画在图中了。）
在这里插入图片描述
可以发现同样的元素，B树的表示要比完全平衡二叉树要“矮”，原因在于B树中的一个节点可以存储多个元素。

4、如果用B+树呢？
还是上面的表数据用B+树表示如下图（为了简单，数据对应的地址就不画在图中了。）：
在这里插入图片描述
我们可以发现同样的元素，B+树的表示要比B树要“胖”，原因在于B+树中的非叶子节点会冗余一份在叶子节点中，并且叶子节点之间用指针相连。

5、那么B+树到底有什么优势呢？
这里我们用“反证法”，假如我们现在就用完全平衡二叉树作为索引的数据结构，我们来看一下有什么不妥的地方。实际上，索引也是很“大”的，因为索引也是存储元素的，我们的一个表的数据行数越多，那么对应的索引文件其实也是会很大的，实际上也是需要存储在磁盘中的，而不能全部都放在内存中，所以我们在考虑选用哪种数据结构时，我们可以换一个角度思考，哪个数据结构更适合从磁盘中读取数据，或者哪个数据结构能够提高磁盘的IO效率。回头看一下完全平衡二叉树，当我们需要查询“张飞”时，需要以下步骤

从磁盘中取出“曹操”到内存，CPU从内存取出数据进行笔记，“张飞”<“曹操”，取左子树（产生了一次磁盘IO）
从磁盘中取出“周瑜”到内存，CPU从内存取出数据进行笔记，“张飞”>“周瑜”，取右子树（产生了一次磁盘IO）
从磁盘中取出“孙权”到内存，CPU从内存取出数据进行笔记，“张飞”>“孙权”，取右子树（产生了一次磁盘IO）
从磁盘中取出“黄忠”到内存，CPU从内存取出数据进行笔记，“张飞”=“张飞”，找到结果（产生了一次磁盘IO）
同理，回头看一下B树，我们发现只发送三次磁盘IO就可以找到“张飞”了，这就是B树的优点：一个节点可以存储多个元素，相对于完全平衡二叉树所以整棵树的高度就降低了，磁盘IO效率提高了。

而B+树是B树的升级版，只是把非叶子节点冗余一下，这么做的好处是为了提高范围查找的效率。
到这里可以总结出来，Mysql选用B+树这种数据结构作为索引，可以提高查询索引时的磁盘IO效率，并且可以提高范围查询的效率，并且B+树里的元素也是有序的。

古月的三个锦囊

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
MySQL索引原理分析（为什么使用B+树）

为什么哈希表、完全平衡二叉树、B树、B+树都可以优化查询，为何Mysql独独喜欢B+树？1、哈希表有什么特点？假如有这么一张表(表名：sanguo)：现在对name字段建立哈希索引：注意字段值所对应的数组下标是哈希算法随机算出来的，所以可能出现哈希冲突。那么对于这样一个索引结构，现在来执行下面的sql语句：select * from sanguo where name='周瑜'；...
复制链接

扫一扫