一 索引(提高查询速度主要在于索引)
索引(
index
)是帮助
MySQL
高效获取数据的数据结构
(
有序
)
。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构 上实现高级查找算法,这种数据结构就是索引。
这里有一张表:
假如我们要执行的SQL语句为 : select * from user where age = 45;
1)无索引情况
查询效率很低,要索全表
2)有索引
当我们有索引时就能快速锁定目标,提高检索效率(尤其是数据量十分庞大的时候)
二 索引结构
二叉树:
假如MySql的索引结构采用二叉树的数据结构:
(可能会出现以下的情况:)
如果主键是顺序插入的,则会出现单向链表:
所以如果采用二叉树为索引结构,会存在以下缺点:
(1)顺序插入时,会形成一个链表,查询性能大大降低。
(2)大数据量情况下,层级较深,检索速度慢。
那么红黑树(平衡二叉树)呢?
红黑树也会存在一个缺点:
(1)大数据量的情况下,层级较深,检索速度慢
所以,在
MySQL
的索引结构中,并没有选择二叉树或者红黑树,而选择的是
B+Tree
,那么什么是
B+Tree
呢?在详解
B+Tree
之前,先来介绍一个
B-Tree
。
B-Tree
,
B
树是一种多叉路衡查找树,相对于二叉树,
B
树每个节点可以有多个分支,即多叉。
以一颗最大度数(
max-degree
)为
5(5
阶
)
的
b-tree
为例,那这个
B
树每个节点最多存储
4
个
key
,
5
个指针:
![](https://img-blog.csdnimg.cn/8b72c87b9dc24097abf0f4419a3c2ade.png)
特点:(向上分裂,向下繁殖)
5
阶的
B
树,每一个节点最多存储
4
个
key
,对应
5
个指针。
一旦节点存储的
key
数量到达
5
,就会裂变,中间元素向上分裂。
在
B
树中,非叶子节点和叶子节点都会存放数据。
B+Tree
我们可以看到,两部分:
绿色框框起来的部分,是索引部分,仅仅起到索引数据的作用,不存储数据。
红色框框起来的部分,是数据存储部分,在其叶子节点中要存储具体的数据。
最终我们看到,
B+Tree
与
B-Tree
相比,主要有以下三点区别:
所有的数据都会出现在叶子节点。
叶子节点形成一个单向链表。
非叶子节点仅仅起到索引数据作用,具体的数据都是在叶子节点存放的。
上述我们所看到的结构是标准的
B+Tree
的数据结构,接下来,我们再来看看
MySQL
中优化之后的
B+Tree
。
MySQL
索引数据结构对经典的
B+Tree
进行了优化。在原
B+Tree
的基础上,增加一个指向相邻叶子节点
的链表指针,就形成了带有顺序指针的
B+Tree
,提高区间访问的性能,利于排序。
表空间
: InnoDB
存储引擎逻辑结构的最高层,
ibd
文件其实就是表空间文件,在表空间中可以
包含多个
Segment
段。
段
:
表空间是由各个段组成的, 常见的段有数据段、索引段、回滚段等。
InnoDB
中对于段的管
理,都是引擎自身完成,不需要人为对其控制,一个段中包含多个区。
区
:
区是表空间的单元结构,每个区的大小为
1M
。 默认情况下,
InnoDB
存储引擎页大小为
16K
, 即一个区中一共有
64
个连续的页。
页
:
页是组成区的最小单元,
页也是
InnoDB
存储引擎磁盘管理的最小单元
,每个页的大小默
认为
16KB
。为了保证页的连续性,
InnoDB
存储引擎每次从磁盘申请
4-5
个区。
行
: InnoDB
存储引擎是面向行的,也就是说数据是按行进行存放的,在每一行中除了定义表时
所指定的字段以外,还包含两个隐藏字段
三 Hash
MySQL
中除了支持
B+Tree
索引,还支持一种索引类型
---Hash
索引。
1).
结构
哈希索引就是采用一定的
hash
算法,将键值换算成新的
hash
值,映射到对应的槽位上,然后存储在 hash表中。
如果两个
(
或多个
)
键值,映射到一个相同的槽位上,他们就产生了
hash
冲突(也称为
hash
碰撞),可 以通过链表来解决。
特点
A. Hash
索引只能用于对等比较
(=
,
in)
,不支持范围查询(
between
,
>
,
<
,
...
)
B.
无法利用索引完成排序操作
C.
查询效率高,通常
(
不存在
hash
冲突的情况
)
只需要一次检索就可以了,效率通常要高于
B+tree
索
引
3).
存储引擎支持
在
MySQL
中,支持
hash
索引的是
Memory
存储引擎。 而
InnoDB
中具有自适应
hash
功能,
hash
索引是
InnoDB
存储引擎根据
B+Tree
索引在指定条件下自动构建的。
总结:
mysql中索引的数据结构为什么是B+Tree(重要)
选择二叉树:如果数据量过多,会有层高问题,也会有形成单链表的情况,造成查询速度变慢;
选择红黑树:也会出现层高问题;B树:如果存储的数据的过大,比如说存一个视频或是图片的话,一个节点可能会存不了这么多的数据,也会出现层高问题;B+树:只有在叶子节点才会存储数据信息,避免出现层高问题。
不选择hash表:hash表不能用于范围查询;当出现hash碰撞时会导致查询速度变慢