深入理解mysql 底层索引数据结构

最新推荐文章于 2024-07-16 13:12:23 发布

邋遢道

最新推荐文章于 2024-07-16 13:12:23 发布

阅读量208

点赞数 3

分类专栏： mysql

本文链接：https://blog.csdn.net/qq_20607405/article/details/120697043

版权

数据库索引 B+树查询优化磁盘IO

关键词由CSDN通过智能技术生成

mysql 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

索引的定义

官网定义：索引是帮助MySQL高效获取数据的数据结构。说明其本质也是一种数据结构。（个人理解：可以把索引看成一本书的目录。把书中的内容按照某种方式排列，方便查找书中内容）注意，索引本身就是按某种方式（数据结构）排好序的

为什么要建立索引？

首先理解一下为什么需要索引：mysql存储数据最终是存放再磁盘中，写入时间不一样，在磁盘中内存地址也各不相同，可能两条连着的数据，最后存放的位置相差特别远。正常去查询的时候，需要去磁盘中找出该数据，没有顺序，所以会一次次做磁盘IO，一般而言内存访问的时间约为 50 ns，而磁盘在 10 ms 左右。速度相差了近 5 个数量级(mysql很多优化就是要尽量减少磁盘的IO次数) ，效率极低。如何解决？

1.有没有可能将磁盘顺序存储？（基本没可能，mysql不止一张表，各个表数据增删改都会影响顺序问题）

2.加一个中间层（书的目录），把存放的数据排列好，再查询（索引）

索引既然要用来排列数据，那么可以思考下一本书如何去排列书中的内容？

索引的数据结构

mysql InnerDB支持的数据结构有：

二叉树，红黑树，hash表，B树

如果我们现在有一张表，有一些数据如图：

最左边是磁盘地址，后面是表的两个字段，和一些数据，我们要对它进行排列

二叉树

这些数据如果我们从中间断开，把2作为一个树的根，那么可以分为两半，一边是1一边是3。查找的时候从2开始查询一次IO就可以找到1或者3,比没有加索引情况减少了一次IO。但是这个大家很快能发现问题。如果我加一个4或者5，6等等，结构如何呢？如图：

可以看到这个树结构如果除掉1,就和线性结构一样，那么查询会快么？

而且现在的数据没有重复的内容，如果有两个2两个3又如何排列？

红黑树（二叉平衡树）

Data Structure Visualization (usfca.edu)https://www.cs.usfca.edu/~galles/visualization/Algorithms.html

这个网址可以模拟各种数据结构，可自行模拟

当单边的节点大于3，那么自动调整结构,这样可以解决二叉树的弊端，如上图

红黑树查询从根节点出发最多三次就能查找到6的数据，相毕竟线性和二叉树，效率高很多，可是也有问题：如果数据更多，那么下面节点也就越多，树也就越高，查询的IO也更多,效率也不会高。

BTree

这里的 B 表示 balance( 平衡的意思),B-树是一种多路自平衡的搜索树（B树是一颗多路平衡查找树）
它类似普通的平衡二叉树，不同的一点是B-树允许每个节点有更多的子节点

如图，B树结构一般不会超过3层（减少IO,一层就会有一次IO），添加节点时，会根据数据内容，判断添加位置如：

再加一个10，从根节点判断大于4 ，大于8，再大于9，直接放到9得后面成为一组

现在加一个14又怎么样呢？

可以看到，当它将14放入10后面得时候，超过了树得高度，则将8放入了根节点，10作为了9和14得中间节点，提到了第二层节点，再将9和14用二分的方式存放

如果现在在里面再插入一个11结果会如何呢？

就不过多赘述了，自行脑补如何存放

总结一下BTree:

可以看到B树的高度不高，相当于磁盘IO不会特别多，入查找11，从根节点出发，11>8 在8的右边再找 11>10 在10的右边再找，第三次就能找到11了。所以B树的效率还是蛮高了

B树特点

所有键值分布在整颗树中（索引值和具体data都在每个节点里）；
任何一个关键字出现且只出现在一个结点中；
搜索有可能在非叶子结点结束（最好情况O(1)就能找到数据）；
在关键字全集内做一次查找,性能逼近二分查找；

从特点中可以看出，B树中每条索引的值都在树节点中，想象一下，如果索引字段内容特别大，那么查询时间可能不一定，有的快，有的慢。还有一个问题，索引也是需要占内存空间的，当一个索引里面放太多的内容，是不是会导致索引更少呢？比如我给书籍的目录就两页，这本书也很大，如果我们在目录中把标题内容写得很长，或者直接把一部分内容放到目录中，那可想而知这个目录也不会太好用。

B+Tree（B树变种）

其实可以看出，B树已经能很好得解决我们大部分问题了，只要解决了索引内容不放太多，是不是基本就解决了我们得索引问题？B+树就是我们mysql中使用得索引结构了