索引是帮助Mysql高效获取数据的排好序的数据结构
索引的数据结构
1.二叉树
2.红黑树
3.Hash表
4.B-Tree B+-Tree
二叉树的结构:
上图表示排序二叉树的每个节点都是索引(主键)每个结点的左子树都比这个结点小,每个结点的右子树都比这个结点大,他们都指向存储数据的地址,如果有特殊情况比如索引是1,2,3,4,5.那就会变成斜着的链表,就会影响查找的效率,所以不使用这种结构。
红黑树:红黑树可以解决上述的不平衡的问题 ,但是当数据量非常大的时候,红黑树的高度就会非常大,就会增加磁盘I/O访问的次数(效率非常低)
哈希表:利用哈希表可以将要查询的值经过哈希运算,经过一次磁盘I/O就可以得到(这种方法效率高,但是不常用因为这种方法没办法进行范围的查询);
B-Tree
B-Tree的特点
1.叶子结点具有相同的深度
2.叶子结点的指针为空
3.节点中的数据索引从左到右递增排序
从红黑树的缺点可以知道高度很大,解决这样的问题就可以不用单一节点从而出现了B-Tree,现在的层数变小了,磁盘的I/0次数变少了但是他依旧没有办法完成范围的查找从而出现了B+Tree.
B+Tree
特点:
1.非叶子节点不存储data,只存储索引,可以放更多的索引
2.叶子结点不存储指针
3.顺序访问指针,提高区间访问的性能
这个结构为什么能存下上千万的数据呢?
高度一般为3,MySQL定义了 一个节点最大为16kb,假设索引的类型是bigint 是8个字节,后面接的指针大小为6个字节那么整个结构就占14个字节,16kb/14b=1170, 叶子结点假设为1kb,那么能存储的数据量为1170*1170*16
怎么解决了范围查找呢?
看一下B+Tree的数据结构:每个叶子结点之间是有指针的所以是可以找到的
不同存储引擎:
test表利用MyISAM存储引擎
会生成三种文件
test.firm文件:这代表了表的定义的相关信息(结构相关)
test.MYD文件:存储的是数据行
test.MYI:存储的是索引的数据值
这种存储引擎的叶子结点存的是数据行的地址,通过这个地址去MYD文件中找到数据行
在Innodb存储引擎中
有两个文件.firm文件.ldb文件
这个叶子结点直接存储的是数据行
什么是聚集索引:叶子结点包含了完整的数据记录
上述说的innoDB就是聚集索引
MyiSAM就是非聚集索引
为什么innodb表必须要有主键,并且推荐的是自增类型的主键
因为innodb的数据项的存储就是利用B+Tree来设计的
为什么最好是整形呢?因为不管是插入还是查找都需要进行比较,所以整形比字符串号
为什么要使用递增的主键?因为插入的时候直接加到叶子结点后面即可
如果不是递增的,如果在叶子结点中间加入一个元素,会引起分裂