MySQL 索引讲解

最新推荐文章于 2024-09-17 20:11:18 发布

Fe_cow丿

最新推荐文章于 2024-09-17 20:11:18 发布

阅读量348

点赞数

分类专栏： MySQL 文章标签： mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fe_cow/article/details/109131186

版权

MySQL 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

MySQL索引

索引是帮助MySQL高效获取数据的排好序的数据结构。

索引的数据结构：

二叉树
红黑树
Hash表
B-Tree

索引的节点存储的是key(索引列字段)，value(行数据磁盘文件的地址指针)。从索引表中找的时候，都是从根节点去找。（二叉树的数据结构）

二叉查找树：

采取二分查找的思想,O(logN) 的复杂度就可以完成对数据的查找任务，查找所需的最大次数等同于二叉树的高度。

它的特性：

左子树上所有节点的值，小于或等于根节点的值
右子树上节点的值，大于或等于根节点的值

缺点：插入值时，可能会出现"单条腿长"的现象，导致多次插入新节点而不平衡的现象，这时红黑树就出现了。

红黑树：

也叫二叉平衡树。说它平衡的意思就是，它不会变瘸子，左腿或右腿特别长的现象。

它的特性：

节点都是红色或者黑色
根节点都是黑色
每个叶子的节点都是黑色空节点
每个红色节点两个子节点都是黑色的
从任意节点到每个叶子的所有路径都包含相同的黑色节点

红黑树的高度虽然有一定的控制，而数据库当中一般要把索引树的高度控制在3-5层，这点红黑树显然无法做到。

B-Tree：

B-Tree是为磁盘等外存储设备设计的一种平衡查找树，是一种多路平衡搜索树。

不像红黑树只有2个子节点。既然有多个子节点，树的高度就可以控制了，同时它也跟红黑树一样，数据是排序的，可以快速查找；

它的特性：

每个节点最多含有m个孩子
根节点含有[2,m]个孩子
非叶子节点含有[[m/2],m]个孩子节点(向上取整的意思)
所有叶子节点都在同一层

每个节点占用一个盘块的磁盘空间，一个节点有两个升序排序的关键字和三个指向子树节点的指针，指针存储是子节点磁盘块地址。
两个关键词划分成的三个范围域对应三个指针指向的子树的数据的范围域。

以根节点为例，关键字为17和35，P1指针指向的子树的数据范围为小于17，P2指针指向的子树的数据范围为17~35，P3指针指向的子树的数据范围为大于35。

模拟查找关键字29的过程：

找到根节点找到磁盘块1，读入内存。【磁盘I/O操作第1次】
比较关键字29在区间（17,35），找到磁盘块1的指针P2。
根据P2指针找到磁盘块3，读入内存。【磁盘I/O操作第2次】
比较关键字29在区间（26,30），找到磁盘块3的指针P2。
根据P2指针找到磁盘块8，读入内存。【磁盘I/O操作第3次】
在磁盘块8中的关键字列表中找到关键字29。

分析上面过程，发现需要3次磁盘I/O操作，和3次内存查找操作。由于内存中的关键字是一个有序表结构，可以利用二分法查找提高效率。而3次磁盘I/O操作是影响整个B-Tree查找效率的决定因素。

B+Tree:

B+Tree是在B-Tree基础上的优化InnoDB存储引擎就是用B+Tree实现其索引结构。

B-Tree的数据结构可以看出，每一个页的存储空间是有限的，如果data数据较大时会导致每个节点存储的key数量很小，但存储的数据量很大时同样会导致B-Tree的深度较大，增大查询时的磁盘I/O次数，影响查询效率。

在B+Tree树中，所有数据记录点都是按照键值大小顺序存放在同一层的叶子节点上，而非叶子节点只存储key值信息。这样可以增大每个节点key值数量，降低B+Tree的高度。

B+Tree与B-Tree不同：

非叶子节点只存储键值信息
所有叶子节点之间有一个链指针
所有记录值都存放在叶子节点中

数据都在叶子节点上，并且增加了顺序访问指针，每个叶子节点都指向相邻的叶子节点的地址。
相比B-Tree来说，进行范围查找时只需要查找两个节点，进行遍历即可，提高了区间访问性能（无需返回上层父节点重复遍历查找减少IO操作）
B-Tree需要获取所有节点，相比之下B+Tree效率更高。

为什么要使用B+Tree?

一般来说，索引本身也很大，不可能全部存储在内存中，索引往往以索引文件的形式存储的磁盘上。索引查找过程中就要产生磁盘I/O消耗，所以评价一个数据结构作为索引的优劣最重要的指标就是在查找过程中磁盘I/O操作次数的渐进复杂度。简单说：索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数。

对比上面的B+树和红黑树，比如查找节点21，红黑树要磁盘IO5次，而B+树只要2次，也就是说磁盘IO次数大致为树的高度，这样B+树就脱颖而出了。

B+Tree的高度一般都在2 ~ 4层。MySQL的InnoDB存储引擎在设计时是将根节点常驻内存的，也就是说查找某一键值的行记录时最多只需要1~3次磁盘I/O操作。

数据库索引采用B+树而不是B树的主要原因: B+树只要遍历叶子节点就可以实现整棵树的遍历，而且在数据库中基于范围的查询是非常频繁的，而B树只能中序遍历所有节点，效率太低。

为什么索引结构默认使用B-Tree，而不是hash，二叉树，红黑树？

hash：虽然可以快速定位，但是没有顺序，IO复杂度高。

二叉树：树的高度不均匀，不能自平衡，查找效率跟数据有关（树的高度），并且IO代价高。

红黑树：树的高度随着数据量增加而增加，IO代价高。

如果只选一个数据，那确实是hash更快。但是数据库中经常会选择多条，这时候由于B+树索引有序，并且又有链表相连，它的查询效率比hash就快很多了。

而且数据库中的索引一般是在磁盘上，数据量大的情况可能无法一次装入内存，B+树的设计可以允许数据分批加载，同时树的高度较低，提高查找效率。

为什么官方建议使用自增长主键作为索引？

B+Tree的特点，自增主键是连续的，在插入过程中尽量减少页分裂，即使要进行页分裂，也只会分裂很少一部分。并且能减少数据的移动，每次插入都是插入到最后。总之就是减少分裂和移动的频率。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Fe_cow丿 CSDN认证博客专家 CSDN认证企业博客

码龄6年

180: 原创

4万+: 周排名

144万+: 总排名

31万+: 访问

: 等级

4163: 积分

188: 粉丝

286: 获赞

54: 评论

623: 收藏

私信

关注

热门文章

分类专栏

Shell 12篇
Java 5篇
Ruby 1篇
Go 26篇
数据结构与算法之美 5篇
Rabbit MQ 8篇
Python 36篇
计算机基础 6篇
Git 1篇
前端 3篇
Django 16篇
Vim 1篇
Nginx 5篇
Python 数据分析 2篇
CentOS系统 6篇
Docker 4篇
SQL 20篇
Linux 1篇
Celery 1篇
MongoDB 2篇
Redis 2篇
MySQL 17篇

最新评论

Celery 简单使用
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
shell 函数的使用
一杯雾652: 看了博主写的shell 相关总结很详细很好懂；想请博主写一个shell里面的大中小括号花括号中括号的介绍呀谢谢
Celery 简单使用
北风之神c: 写得赞，博主用心了，但主要还是celery太难用了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字，所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1) 整个项目目录结构,celery的目录结构和任务函数位置，有很大影响 2) @task入参 ,用户有没有主动设置装饰器的入参 name,设置了和没设置有很大不同，建议主动设置这个名字对函数名字和所处位置依赖减小 3) celery的配置，task_queues(在3.xx叫 CELERY_QUEUES )和task_routes (在3.xx叫 task_routes) 4) celery的配置 include （在3.xx叫 CELERY_INCLUDE）或者 imports (3.xx CELERY_IMPORTS) 或者 app.autodiscover_tasks的入参 5) cmd命令行启动参数 --queues= 的值 6) 用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 https://function-scheduling-distributed-framework.readthedocs.io/zh_CN/latest/index.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery，任何方面都是有过之而无不及。发布性能提高1000%，消费性能提高2000%
Python-Django框架的select_related 和 prefetch_related函数对 QuerySet 查询的优化
Fe_cow丿: 你的这个报错原因，是因为get方法返回的值是多个，导致的。 get换成filter返回的是查询集
Python-Django框架的select_related 和 prefetch_related函数对 QuerySet 查询的优化
Aaron_945: 你好，当我执行select_related 查询时，返回以下错误。请问是否你已遇到， Please help me, Thanks！ >>> Firebox.objects.select_related('rig').get(model='52') Traceback (most recent call last): File "<console>", line 1, in <module> File "/usr/local/lib/python3.8/site-packages/django/db/models/query.py", line 419, in get raise self.model.MultipleObjectsReturned( home.models.Firebox.MultipleObjectsReturned: get() returned more than one Firebox -- it returned more than 20!

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。