B+树索引

最新推荐文章于 2024-03-06 22:01:41 发布

weixin_37729009

最新推荐文章于 2024-03-06 22:01:41 发布

阅读量224

点赞数

本文链接：https://blog.csdn.net/weixin_37729009/article/details/103428810

版权

数据库为什么使用B+索引？
因为数据库中的数据存放在磁盘上，所以获取数据需要进行操盘IO，但是有一个非常严峻的问题，就是每次磁盘IO非常慢（9毫秒），如果每条数据都要进行IO，那查询效率将会非常低，所以需要进行优化。
根据计算机操作系统的设计可知，每次取数据是将该数据所在的存储页取出来放到内存（每个内存页4K或8k）。即每次IO取到的是一个存储页。
在这里插入图片描述
浅蓝色的块我们称之为一个磁盘块，可以看到每个磁盘块包含几个数据项（深蓝色所示）和指针（黄色所示），如磁盘块1包含数据项17和35，包含指针P1、P2、P3，P1表示小于17的磁盘块，P2表示在17和35之间的磁盘块，P3表示大于35的磁盘块。真实的数据存在于叶子节点即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非叶子节点只不存储真实的数据，只存储指引搜索方向的数据项（数据得到索引），如17、35并不真实存在于数据表中。
树的高度越高，那么需要的进行IO的磁盘块就越多（因为数据存在叶子节点，需要根据指针将磁盘块一块一块进行IO，知道找到要查数据所在的磁盘块），消耗的时间就越多，所以为了提高效率，就要减少IO磁盘块的个数，即减少树的高度，这就需要内层节点（磁盘块）全部用来存放索引，同时，索引字段你的字节要尽量小，因为每个磁盘块大小就这么大，要尽最大可能存放索引。

建索引的几大原则：

1.最左前缀匹配原则，非常重要的原则，mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配，比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)顺序的索引，d是用不到索引的，如果建立(a,b,d,c)的索引则都可以用到，a,b,d的顺序可以任意调整。

=和in可以乱序，比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意顺序，mysql的查询优化器会帮你优化成索引可以识别的形式

3.尽量选择区分度高的列作为索引,区分度的公式是count(distinct col)/count(*)，表示字段不重复的比例，比例越大我们扫描的记录数越少，唯一键的区分度是1，而一些状态、性别字段可能在大数据面前区分度就是0，那可能有人会问，这个比例有什么经验值吗？使用场景不同，这个值也很难确定，一般需要join的字段我们都要求是0.1以上，即平均1条扫描10条记录

4.索引列不能参与计算，保持列“干净”，比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引，原因很简单，b+树中存的都是数据表中的字段值，但进行检索时，需要把所有元素都应用函数才能比较，显然成本太大。所以语句应该写成create_time = unix_timestamp(’2014-05-29’);

5.尽量的扩展索引，不要新建索引。比如表中已经有a的索引，现在要加(a,b)的索引，那么只需要修改原来的索引即可