MySQL

Water Fan

已于 2024-03-01 18:55:24 修改

阅读量764

点赞数 9

文章标签： mysql 数据库

于 2024-02-18 13:53:42 首次发布

本文链接：https://blog.csdn.net/qq_41765518/article/details/135647650

版权

MySQL-B Plus Tree

MySQL索引底层原理
.参考文献

MySQL索引底层原理

在我们的线上系统，经常可能会碰上一些慢查询，当碰到了慢查询，第一时间想到的就是建索引，哪个地方没有建索引，或者说索引建的不合适。当建了索引之后，这条慢查询确确实实性能查找的效率提高了非常多，那为什么建了个索引之后，哪怕这张表超过千万行，只要使用索引得当，它依然几百毫秒就能查出我们的结果，如果没有建索引，你去一张千万级别的表里面去查，可能要几十秒，这就需要彻底理解索引底层的一个原理。
一张千万级别的表，如果索引用的比较合适，查询效率是非常高的，否则会很慢。那索引提升数据查询效率的底层原理是什么，如何把索引建的更加有效率一点，以及工作中用的比较多的联合索引底层结构是什么样的。在做一些大数据量表的开发时，经常可能会有慢查询，涉及到这些慢查询，在MySQL中是如何优化的。

索引相关概述：

索引相关的几种查找算法：

遍历：暴力查找；
二分：B+树的基础算法；
键查找：hash查找；

数据的一般存储方式：

内存存储：任何数据处理都必须经过内存，内存可供CPU直接使用，适合小数据量存储；内存资源有限，是非常宝贵的，查询速度快。
磁盘存储：所有的静态数据资源都是存储在磁盘中的，适合大数据量；查询时需要先做磁盘I/O，把数据load到内存中再使用，查询速度慢；
所以，减少磁盘I/O操作，对性能提升起到至关重要的作用。

磁盘的相关概念：

运转方式：速度 + 旋转；
磁盘页的概念：MySQL中默认每一页大概16KB；

数据库索引检索原理：

数据库表中的数据，是存储在磁盘上的；数据库表中通过数据结构所维护的索引(元素的)文件，也是存储在磁盘上的；
当我们通过索引去查询数据库表中的数据时，实际上，需要先把索引文件中的根节点数据页(维护索引的数据结构中的一个节点)，全部加载load到内存RAM中(根节点是常驻内存的)，之后在这个根节点里面的索引元素的范围，找到下一层数据页节点的磁盘文件位置，加载到内存中继续查找，以这样的方式，最终找到所要查询的数据结果。

索引的定义

索引的教科书式定义：

索引类似于一本教科书前面的目录页，方便根据目录页的索引序列页数，定位到要查找的内容。但这种解释，只能停留在一个大学时教科书式的解释，是非常浅层次的，听完也不知道索引到底是什么东西。那要揭开索引的本质，就必须理解索引的底层的数据结构以及相关的查找算法。

索引的本质：

索引实际上是帮助我们数据库(比如MySQL) 获取数据的排好序的一种数据结构。索引的本质就是排好序的数据结构。

索引相关的数据结构：

那先从数据结构说起，数据结构无非就是存储数据的一种结构，比如二叉树，红黑树，Hash表，B-Tree等。
国外有一所大学开发了一个数据结构的学习网站，这个网站是学习数据结构的一个教学网站，非常非常好用，大部分的数据结构，在这个网站里都有一些个介绍，或者说演示。

二叉树(Binary Search Tree)：

二叉树有一个特性，就是右边的子元素是大于等于它的父节点元素的，然后左边的子元素是小于它的父节点元素的。

红黑树(Red-Black Tree)：

HASH表：

HASH是一种散列算法，实际上就是事先把要查找的元素，通过HASH运算得到一个散列值，把这个散列值放到一个HASH映射表中去维护。当要查找的元素的时候，只需做一个hash运算，得到了一个散列值，然后去到事先维护的hash表里面，快速的就可以定位到要查找的数据。
可以认为要查找的元素和对应的散列值以及要查找的数据，它们是一一映射关系，只要算出它的散列值，马上就能够定位到需要查找的数据位置，或者说那个数据的磁盘文件地址指针。也就是说，HASH的查询性能是非常高的，哪怕存储10亿的数据，也只要经过一次hash运算，就能够快速的定位到要查找的数据。
HASH的应用非常广泛，比如常见的有，用户登录系统的那个密码，一般来说，要用MD5做一次hash运算，MD5就是一种hash算法。实际上，HASH算法有很多种，什么CRC16，CRC32，都是hash算法，那mysql底层也有自己的hash算法。

B-Tree：

不同数据结构的索引：

那索引为什么是一种数据结构，因为通过选用合理的数据结构，可以尽量减少mysql对磁盘I/O的操作，从而提升数据库的整体性能。

无索引表

假如我有一张没有建立任何索引的裸表，那么要查找数据，MySQL底层会怎么查询，逐行去比对遍历查找。也就是如果这张表没有建立任何索引的情况下，查找表中的第n行数据的次数为n次，时间复杂度为n。

示例分析：

比如我有一张2列7行的非常简单的表，这张表没有建立任何索引，
那么select * from t where t.col2 = 89;，查询这条SQL语句，也就是查找表中第6行这行数据，MySQL底层会逐行去比对查找，查找第一行col2=34，不对，再查找第2行，逐行查找，直到查找到第6行col2=89，这行数据，比对OK，一共查询了6次。

基于二叉树维护的索引：

如果有一张数据库表，建立一个索引。那假设现在用二叉树这种数据结构来承载这个索引字段，也就是基于二叉树的基本特性：左子元素 < 父节点 <= 右子元素，把索引字段有规则的存放到二叉树数据结构中来维护。当根据索引查询某行数据时，一般来说都是从根节点开始，逐层比对大小去查找。所以二叉树的层数决定了查找的次数，二叉搜索树的时间复杂度，
最好为O(logN)：非叶子节点所有层高都放满元素的时候；
最坏为O(N)：所有层高只有一个元素的时候。

二叉树节点存储索引的结构：

那二叉树里面怎么存储索引，实际上二叉树中一个节点load 在存储索引时，大概是一个key-value的结构，key实际上就是存放了一个索引字段，而 value实际上存放的就是 data数据，这个data，可以把它理解为这个索引元素所在行的磁盘文件地址指针或者这个索引元素所在行的完整的行记录数据(所有字段的集合)。因为一张表的数据是存放在磁盘上面的，那就肯定有一个磁盘地址。

示例分析：

那比如这张2列7行的数据库表，假设现在用二叉树这种数据结构来承载col2这个索引字段，建了一个索引col2，把col2放到索引里面去，放到一个二叉树上面去。也就是在这张表里面，把col2提取出来，放到一个二叉树结构里面，
那再查找select * from t where t.col2=89;，这条SQL 语句，
那么MySQL底层一看就知道了col2是索引字段，就会先去索引那个二叉树里面，快速过滤要查找的元素，那此时从根节点开始去找，第一个节点为34，那89大于34，基于二叉树的特性，应该从根节点的右边子节点去找，一找发现刚好就是我们要找的89元素，找到之后，根据二叉树存储索引的结构，key对上了，只要把value拿出来，而value存储的就是，这个89字段所在的那一行数据的磁盘文件地址指针，拿到这个指针直接去磁盘文件上面去找一次，做一次磁盘I/O就行了。
那这样去查找，用一个巧妙的索引去存储某一个索引字段，再根据索引的这条SQL语句查找，只需查找2次就找到数据了，而且如果表中的数据越多，它带来的性能提升会更加明显，但是要遗憾的告诉你，我们真正的MySQL索引，比如把某一个字段建个索引，它的底层数据结构并不是用二叉树，可以直接告诉你结论，它用的是B+树，或者叫B树系列的这种数据结构。
那是为什么 MySQL底层不用二叉树作为索引，说白了肯定是在某些特定的业务场景下，二叉树不一定能满足索引的要求，比如假设把表中col1这个字段作为我们的索引字段，也用二叉树来存储，那有可能会是一个什么样的结果，可以通过数据结构学习网站来演示如下：
那现在把 col1作为索引字段，用二叉树来维护，然后以 123456789依次递增的趋势，逐行来插入数据，根据二叉树的特性，那依次递增的数据场景，或者说字段是这种单边增长的递增趋势的数据字段，这个二叉树最终会演变成了一个链表。这时，假设用col1这个索引字段来查找，select * from t where t.col1=6;，既然建了索引，那肯定是用索引字段去查找，查询效率才高，但在这种场景下，查找col1=6，需要查找6次，实际上跟表没有索引时的依次轮询查找，没有什么区别。
那因为表里面的数据是存在磁盘上面，实际上索引存储的数据结构，它也在磁盘上面，如果它出现这种单边增长的数据放到一个二叉树里面来，实际上二叉树最终变为链表，那再去查找的时候，就跟这张表没有建立索引，逐行去比对查找的方式，没有什么区别，性能上面没有任何提高。也就是说，用二叉树做索引的底层的数据的承载的一种结构，在某些特定场景，像这种单边增长的场景，就不是特别合适，那有没有更好的数据结构，来承载索引底层的一个数据结构。那比如红黑树，如果用红黑树来存储索引字段会不会更好一点。

基于红黑树维护的索引：

红黑树也应用在jdk1.8里面的HashMap，jdk在1.8之后，对HashMap底层的链表的数据结构做了一个大的改进，就把它优化成了红黑树，这样效率会提高很多。
那如果我们用红黑树，Red/Black Tree这种数据结构，来存储递增趋势的数据，那它的效果如下，
那么以红黑树作为索引的存储结构，依次插入1234567，因为插入比父节点大的数据，一定会往右边去插入，这也是二叉树的特性，实际上红黑树也是一个二叉树，但是区别是，当它一边元素如果太多了，如果这棵树左右失衡的太严重，比如最右边比最左边的子元素树高超过了2层，这个树出现单边失衡的话，这时再往里面插入元素，它会自动帮你做一个旋转，实现树的一个平衡，但其实红黑树，也是一种二叉树，它叫做二叉平衡树，它会自动平衡，不让一棵树单边增长的太过分了，这个树可能不稳会倒，所以它会底层通过平衡算法帮你做一些平衡。当然它底层平衡算法，这里不去讨论。
那用红黑树来存储MySQL索引col1这个字段，那再来查找一下select * from t where t.col1=6;，这条SQL语句，索引col1=6的这个值，只需经过3次查找，就找到了这个索引的元素，根据二叉树节点存储索引的key-value结构，找到这个索引的节点，也就是找到key，那value 存的是这个索引所在那个行的磁盘文件地址指针，根据这个指针，就找到了这个索引所在那一行的记录，就拿到了我们真正的结果了。那通过红黑树存储索引只要在磁盘上面找3次就搞定了，相对于二叉树结构，性能又优化一点。但实际上，MySQL索引最终底层用的是B树这样的数据结构。
MySQL底层索引，没有用红黑树的原因，无非就是某些场景下，也不是特别合适。那红黑树来作为我们数据表里面索引的底层数据结构，随着数据库表中数据量越大，那么红黑树的高度也会增大，在这种场景下，树的深度或者说树的高度，是没办法控制的。那一般来说，我们生产数据库表，动辄几十万，甚至几百万行数据。
假设一张表有100w行记录，不断的往这个红黑树里面插入元素，假设我把这颗树我插满了，那这棵树的高度大概是多少，就是2的n次方，这个n就是树的高度。假设存100w的数据，它的树的高度，假设可能是需要20，那20的树高度，我查找的元素位于中间还好；在极端情况下，假设我要查找的元素是在叶子节点，也就是要查找树的高度这么多次，才能查找到我要的元素。也就是说，如果数据量比较大，红黑树它也是搞不定的，一条SQL我走了索引，你还在磁盘上面，通过节点逐个去轮询查个几十次，这肯定不合适的。

基于红黑树的改造思路：

那有没有更好的方案去存储我们的索引，如果作为一颗树来存储的话，即便查找再多的数据，查找的次数，我希望是可控的。或者更具体的说，假设存1000w行数据，或者几千万行数据，如果还用树这种数据结构，是否可以把查找次数控制在3到5次之间，也就是，让树的高度能控制在3到5层之间，就能够存放几千万行数据，答案是肯定的。

基于B树维护的索引

假设就在红黑树上面去改造，那么首先，这个数据结构肯定是存储在磁盘上面的，根据二叉树节点存储索引的key-value结构，一个节点里面只放一个索引，一个data。那对此节点的存储索引的结构稍微改造一下，可以改变节点的广度，也就是，能否让一个节点里面可以存放更多的key-value结构的索引元素，构成一个大节点。然后大节点中的数据从左到右依次递增。
一个大节点中的每相邻的两个小节点索引之间通过指针指向树的下一层中的一个节点，下一层中的每个节点，也让它分配一样容量的大小空间，以同样的规则存储索引。这样就可以快速定位存有目标索引元素的下一层节点，从而通过二分查找等算法快速找到对应的索引数据。也就是这棵树的纵向，我是要控制的，那我又要存储很大的数据量，我完全可以在这棵树的横向做文章，让它的横向可以存储更多的元素，那实际上，对红黑树稍微做一点点这样的改造之后，就得到了B树。
实际上，在B树中，每一个小节点的左右分叉里面，它还是一个二叉树，依然满足二叉树的特性，右边的子节点里面的所有的元素，都是大于等于它的父节点的，然后左边的子节点的所有元素都是小于它的父节点的。也就是每个大节点中的所有元素，都满足小于它右边的父节点，但是大于等于他左边的父节点。B树看上去就是一个多叉的，或者说多路的形态。所以，B树它就是一棵多叉平衡树，或者说全名叫做多叉平衡树。
那这时，假设我要同时存储100w行记录的索引，用B树这样的数据结构，只要把B树上面每个大节点的横向推算到一个合适的值，那么它的树的高度，就肯定是可控的。如果这棵树的每个大节点的横向可以存储100个索引节点，高度为3的话，那这个树最多可以存放多少个数据元素，也就是S10=10x(1-10^3)/(1-10)=111w。也就是说，只要每个节点横向存储，3层树高，就可以同时存储100w行记录的索引。

基于B+树维护的索引：

那实际上，我们真正MySQL底层索引，它就借助了B树的这种数据结构，横向可以存储更多元素的数据结构，但是它在这个结构上面，又做了一点点改造。真正MySQL底层索引的数据结构，它用的是B+树。

B+树对 B树的改造和区别：

那么B+树对 B树做了哪些改造，它们的区别如下：

B+树在叶子节点之间多了一个指针 (详见 B+树索引对范围查找的支持(叶子节点间指针的作用))。
B+树的非叶子节点不是key-value结构，只存储key，没有value值，也就是只存储索引元素，而没有data数据(磁盘文件地址指针或完整的行记录)。
B+树的叶子节点存有一份完整的全量索引元素，非叶子节点有很多的冗余索引；而 B树索引是没有冗余的。也就是说，如果一个索引是唯一索引，在B树里面只会出现一次，但是在B+树里面可会出现多次。

实际上，B+树是B树的一个变种，也就是把B树的非叶子节点里面的data元素，给它挪到了叶子节点来，中间存储的这些索引元素，是一些冗余的索引元素。部分冗余索引作为非叶子节点的一部分，完整的索引和数据放到叶子节点。因为这一个节点，它大小是有限制的，如果我把一些多余的，像data元素挪走了，意味着这个节点，就可以存储更多的索引元素。也就是非叶子节点，只存储索引这样的一个小数据，比如，同等大小都是16KB，B+树的非叶子节点可以存储的索引绝对比B树存储的索引的节点更多。

二分算法对B+树的支持

B+树的叶子节点存有一份完整的全量索引元素，然后通过多次的二分算法实现，把属于一些中间位置的索引元素，提上去放到非叶子节点作为冗余来存放，所以，非叶子节点都是冗余的索引元素；B树的索引元素在整个树只出现一次，不会冗余出现。

MySQL可以存储多少索引数据

MySQL底层使用了B+树作为维护索引的数据结构，那么，这棵B+树的高度是多少，以及每个节点可以存放多少个索引。这决定了MySQL 到底可以存储多少数据量。
实际上，MySQL底层对B+树的每一个节点的大小，是有个默认值的，每个节点的大小是相同的，可以通过如下语句查询：

SHOW GLOBAL STATUS like ‘Innodb_page_size’;

查询结构如下：

Variable_name Value
Innodb_page_size 16384

通过这条SQL，就显示了Innodb的page_size，也就是MySQL中一个大节点的内存大小，或者可以把它认为MySQL的一个页节点，它默认设置了一个大小，16384个字节，也就是16KB。

为什么不把所有的索引都保存到内存中

那么MySQL为什么要设置这个页节点的大小，又为什么是16KB。既然在节点横向做文章，树的高度就可以控制，而树的高度越小，从磁盘I/O查找的次数就越少，那也可以把横向做足文章，假设我有1000w行数据，那就把这1000w行数据的所有索引元素，都存放在这个大节点上面去，这么存储，那树的高度就是1，当根据某一个索引字段查找某一行记录时，只要把这个大节点一次性load加载到内存，之后在内存里去查找，岂不是更快。
其实，把所有元素都存到一个大节点有意义么，

首先，内存资源是非常宝贵的。我们常用的数据库记录，可能就那么一点点，如果一次性把所有的索引元素都加载到内存，非常浪费内存。
其次，这么多元素，几千w行数据放到一个节点里面，一次加载，那得加载多久，又是非常浪费时间的。
最后，如果一次性加载到内存，树的高度很多，也没关系。按照这个思路，那即便用红黑树，也可以把红黑树，事先一次性初始化到内存里面去，因为我在内存里查找元素，是非常快的。

所以，如果把所有元素都存到一个大节点，既浪费内存，浪费时间，又没有意义。
那么，想象一下，我们的数据库表里面，几千万行记录，真正用的是多少，没有多少的，所以我们一般不会用这种方式。一般来说，对于这个树的节点，是要有一个大小限制的，不能让它太大，太大会有很多问题，所以，这个节点MySQL给我们默认设置是16KB。

MySQL的一个非叶子节点可以存储多少个索引

那它为什么设置16KB，或者说这个16KB的设置是不是很合适。一般来说，我们设计数据库里面的一张表，主键可能都是用int或bigint，那假设我举大一点，用bigint。比如，设计一张用户表，它有用户id，数据库主键用bigint，那bigint 在mysql数据库里面占的容量有多大，8个字节，8byte，或者说 64位也是正确的。
也就是说，假设这张表里面建了一个主键，这个主键索引就用B+树来维护，主键的类型为bigint，也就是占8个字节，而每个索引旁边，还有一个指针，实际上就指向下一个节点的一个磁盘文件地址指针，那这一个指针在MySQL中，可以看一下MySQL源码，给它分配的一个存储空间，大概是6个字节，也就是，它只存储这个节点，在磁盘上面的一个文件地址，用6个字节，6byte，就足够了。
那根据B+树的结构，一个大节点里面，每存储一个小的索引节点，意味着它旁边就有一个指向下一层节点的磁盘文件地址指针，也就是说，我们这里面有多少索引节点，跟它旁边的这个地址指针，可以认为它是成对出现。那按照一个bigint索引是占8个字节，然后索引旁边指向下一层元素节点的指针，大概是占6个字节，那么，存储一个索引大概有多少空间，8kb+6kb=14kb，14个字节。
然后，MySQL默认一个大节点是16KB，也就是16k个字节，那这个大节点，按照bigint这种整型的主键来存储的话，大概能放多少个索引元素，16kb除以14个字节，16kb/14b大概多少，大概就是1170，也就是说，MySQL的一个大节点里面，如果只存储索引的话，可以存储1170个索引。

MySQL的一个叶子节点可以存储多少个索引

按照B+树的结构，这棵树的叶子节点和非叶子稍微有一点点区别，就叶子节点来说，因为它没有下一层节点，所以每一个叶子节点里面的索引元素，就没有类似非叶子节点里每个索引旁边的指向下一层的磁盘文件地址指针。这里需要注意的是叶子节点里面，虽然没有了指针，但它里面除了存储的索引元素之外，还有索引对应的那个data元素，这个data元素，可以理解为这个索引所在行的磁盘文件地址指针，或者是这个索引所在行的其他字段的集合全部存储在这里。
也就是说，B+树的非叶子节点，只存储索引元素key，并不存储数据data；而叶子节点，既存储了索引元素key，又存储了数据data，也就是索引元素所在行的磁盘文件地址指针或其他所有字段的集合。那假设叶子节点里的每个索引的key-value结构的小节点，大概占用的空间，就取大一点 1KB。因为不同的MySQL存储引擎，这个data里面放的元素不同，有的存储引擎放的只是索引所在行的磁盘文件地址指针，那可能容量不是特别大，但有的放的是索引所在行的其他所有字段，全部放在data这里面来，保守一点估计，就假设占用 1KB。
MySQL默认设置的一个大节点的容量是16KB，非叶子节点和叶子节点都是相同的。这样叶子节点里的每个索引和它对应的data数据，大概占用1KB空间，也就是说一个叶子节点总共可以存储16个索引元素，16KB/1KB=16。

MySQL基于3层树高的B+树可以维护多少索引

根据B+树的结构可知，这棵树所有的叶子节点，存储了我们整张表的索引元素的全量索引，非叶子节点都只是些，处于中间位置的一些冗余索引，那按树的高度为3来说，假设这个树现在被存满了，也就是叶子节点全部存满了，那这一棵树它的所有叶子节点里面，一共可以存储的索引元素，大概是多少。
根据分析，MySQL的每个非叶子节点，都可以存储1170个索引元素；而每个叶子节点，都可以存储16个索引元素。那按照树高为3来计算，当这棵树如果被撑满了，大概大概所有叶子节点里面，可以存储多少索引元素，也就是计算第2层到第3层有多少个分支，也就意味着有多少个叶子节点。
第1层到第2层有1170个分支，也就是第2层有1170个非叶子节点；而每个非叶子节点又有1170个分支，也就是第3层有 1170x1170=1368900个分支，也就是第3层有大概140w个叶子节点；而每个叶子节点，又可以存储16个索引元素，也就是叶子节点一共可以存储 1170x1170x16=21902400个索引，大概2190w索引或者说 2000多万索引。
所以 MySQL默认设置的这个节点16KB，是有道理的。树的高度h=3时，就轻轻松松已经能存2000w行的索引元素了。实际上日常我们用的数据库表，可能几百万行，上千万行就差不多了，对于一两千万行数据的表，我用B+树去做索引来存储的话，树的高度只要等于3就可以了，那意味着这棵树的查询效率得有多高。任何一个数据只要从磁盘上面load加载3次到内存，实际上只需要load两次，做两次磁盘I/O即可。因为根节点是常驻内存的，在初始化时已经加载完成了。
这就是为什么建了个索引之后，哪怕你这张表超过千万行，只要使用索引得当，它依然几百毫秒就能查出我们的结果，如果没有建索引，去查一张千万级别的表里面，可能要几十秒。

B+树示例演示：

MySQL中节点设置16KB，一个非叶子节点大概可以存储1170个索引，一个叶子节点大概可以存储16个索引和数据，当我要查找的数据元素的时候，就逐个去把节点load出来即可。假设我们把非叶子和叶子节点可以存储的小一点，比如每个节点可以存储的元素不超过3个，，然后依次插入1234567，这7个元素。那么也可以动态去演示一下 B+树的维护数据的具体细节。
这就是B+树的数据结构大概的一个效果。也就是给红黑树的横向做了文章，只要让每个节点存储适当的元素，就可以控制树的高度，从而减少查询次数，提高查询效率。那用B+树来存储MySQL索引col1这个字段，那再来查找一下select * from t where t.col1=6;，这条SQL语句，索引col1=6的这个值，只需经过2次查找，就找到了这个索引的元素，这比红黑树，又进步了很多。
根据数据库索引检索原理，一般来说，树这种数据结构存储元素，这个整颗树，实际上是放到磁盘里面的，当我要从这个树里面查找某一个元素的时候，它肯定是从磁盘里面去load加载元素到内存中，一个一个节点去load出来。首先，它会从根节点开始，而根节点一般会事先放到内里面，就常驻在内存RAM中，这一个节点的所有元素，它会事先放到RAM里面去。
比如，select * from t where t.col1=6;，这条SQL语句，查找6这个索引元素，那首先从我们的内存里面去比对，跟3去比对一下，发现大于3，满足二叉树的特性，往后去找，再跟5去比较，发现还大于5，应该走右边的子节点，那它再根据右边的指针找到下一个节点，找到之后，把这一个节点，再一次性的load到内存RAM里面去，load之后，在内存里面再去比对，发现6大于5，一下就找到6这个元素了，根据这个元素下面，也就是叶子节点下面，实际上有一个data数据，data里面可能存的是这个索引所在行的磁盘文件地址指针，也可能存储这个索引所在行的所有其他的字段，根据这个data，去磁盘上面去load一下地址，马上就找到要查找的那行记录了。

MySQL存储引擎

MySQL数据库底层是用B+树来存储索引的，到底怎么运用B+树来存储的，以及当我在数据库表写一条sql去查找数据的时候，它的底层到底是怎么走索引的，这都离不开数据库的存储引擎。
MySQL有很多存储引擎，比如 MyISAM存储引擎和 InnoDB存储引擎。在建表的时候，如果用Navicat作为连接MySQL数据库的工具，可以任意选中一张表，右键打开设计表后，可以看到很多选择按钮，比如索引，外键，触发器等，其中就有一个选项按钮，点开之后，就可以看到引擎下拉选项，里面就很多存储引擎可供选择，一般来说，默认就InnoDB。

MySQL数据库表与存储引擎的关系：

在Navicat里，我们是从表设计中，找到的存储引擎的选项，实际上，存储引擎就是形容数据库表的。虽然数据库本身，也可以设置一个存储引擎，但它最终是具体到表级别的，如果打开表的DDL语句，就可以看到每一张表都有指定了自己存储引擎。

MySQL底层数据结构与存储引擎的关系：

那么，数据库有很多存储引擎，实际上，每一种存储引擎底层还可以选择一些不同的数据结构来维护索引字段。比如 B+树和 HASH表。在Navicat工具，可以任意选中一张InnoDB的表，右键打开设计表后，可以看到很多选择按钮，比如索引，外键，触发器等，其中索引按钮，点开之后，就可以看到索引方法下拉选项，里面有 BTREE 和 HASH 两个选择，一般来说，默认就BTREE。

MySQL索引和数据的文件存储结构：

不同的数据库存储引擎，底层索引可能使用的是同一种数据结构，但还是有些区别的。比如InnoDB和MyISAM存储引擎底层都可以使用B+树来维护索引。那么不同的存储引擎，它底层的索引到底怎么来用的，这就必须先了解MySQL底层索引和数据的文件存储结构。那分别结合：
一张innodb的表test_innodb_lock：
一张myisam的表test_myisam：
通过这两张表的具体分析它们的文件存储结构。首先，数据库表里面可能有很多数据，数据表的数据定义，以及表里面的那些数据，是存储在我们磁盘上面的。比如本地装了一个mysql的服务 mysql-5.6.33-winx64版本，它的根目录下有个data文件夹：
打开这个data文件夹，data文件夹下面有很多子文件夹，这些子文件与打开的mysql的本地服务中具体的不同mysql的数据库实例，刚好是一一对应的关系：
那一个数据库中不同实例的相关数据就是存放在这个data文件夹，比如test库，就放到test文件夹下面，那打开这个test文件夹下面就会发现，里面的文件就是和本地mysql服务中的数据库表一一对应，但是会发现，一个表对应的有多个文件，比如，这个test_innodb_lock这张表，对应的有两个文件，然后test_myisam这张表，对应的有3个文件：

MyISAM存储引擎的文件存储结构：

那看myisam这张表test_myisam，它对应的文件有3个，分别是test_myisam.frm，test_myisam.MYD 和 test_myisam.MYI，这3个文件其实看名字也大概能猜出来，
第一个frm，框架frame的缩写，实际上就是这张表里面的那些表结构的一些定义的那些数据，就放在这个文件里面。
第二个MYD文件，MY实际上就是myisam的简写，那D就是data。那myd文件，存的是我们这张表里面的所有的行数据。
第三个MYI文件，MY就是myisam，I是index。那myi文件，存储的就是我们的索引的数据。比方test_myisam这张表里面，有个PRIMARY_KEY (`id`)，PRIMARY_KEY；主键它自身就是个索引，那这个主键这个字段里面的索引元素，就是存储在MYI文件里面。
其实光看英文字母，就可以看出来这些文件什么意思，不需要去背这些东西，理解就好了。

InnoDB存储引擎的文件存储结构：

再看innodb这张表test_innodb_lock，那innodb的存储引擎的表对应的磁盘文件，发现和myisam的有一点点不同，它底层的文件只有两个，test_innodb_lock.frm 和 test_innodb_lock.ibd。
那这两个文件，第一个 frm文件，肯定跟myisam是一样的，是表结构文件。剩下的只有一个文件叫ibd文件，它里面存储的什么东西，从myisam的文件存储结构，可以想到，一张表无非就那么几个东西，表结构，表里面的数据行和索引元素。
说白了，这个ibd文件就是myisam存储结构的myd和myi这两个文件的一个合集。mysql官方在设计innodb的时候，它这么来设计，把索引和数据合并放到一个文件，也就ibd文件。

MySQL底层索引和数据的检索原理

MySQL底层索引和数据的存储原理，也就是 MySQL底层存储索引和数据的文件里面，用哪一种数据结构来维护索引和组织数据的。通过 MySQL底层数据结构与存储引擎的关系，可知一种存储引擎是可以选择不同的数据结构来维护索引的，比如 InnoDB存储引擎的索引结构既可以选择BTREE，也可以选择HASH表。MyISAM存储引擎也是一样。
如果InnoDB存储引擎和MyISAM存储引擎，都选用了BTREE来作为维护索引的数据结构，通过 MySQL索引和数据的文件存储结构，可知，MyISAM的索引和数据分别对应MYI和MYD两个文件，是分开存储的；而InnoDB只有一个ibd文件，把索引和数据合并到一个文件中存储。那么，这些文件底层到底是怎么来存储索引和数据的。MyISAM和InnoDB都用了B+树这种数据结构，它们之间的区别是什么，以及它们底层查找数据的执行过程又是怎么样的。下面就对这两种存储引擎进行更深入的理解：

MyISAM存储引擎之B+树检索原理：

根据 MyISAM的文件存储结构已知，MYI文件，它是一个索引文件，而索引文件底层是用一种数据结构来存储的，如果用B+树来存储的话，也就是在MYI文件里面，通过B+树来组织，存储test_myisam这张表中的主键索引字段，那myisam表它的底层的一个索引的存储的一个结构，如图：
结合这张图，那图中右侧有一张表，表中col1是索引字段，这张表对应的就是MYD文件存储的内容；图中左侧是对索引字段所维护的索引结构，这个索引结构对应的就是MYI文件存储的内容。也就是，MYI文件里面存的就是主键索引字段，这个文件里面它底层存储具体数据的存储方式结构，就是用B+树来组织的。表里面活生生的一行行数据，就是放我们那个MYD文件里面。
当执行一条sql语句时，比如，select * from t where col1 = 49;，col1作为索引，这条sql走了索引，是用索引字段来查找。那实际上，MySQL底层的执行过程就是，它先看下是不是索引字段，如果是索引字段，那它先去索引文件里面快速的根据B+树的特性去查找，这里查找索引col1=49的元素。
首先，先定位到这个元素，从树的根节点开始定位，一般根节点是常驻内存的，然后，从内存里面按照元素的某个特性逐一对比，先跟15比对，大于15 再跟后面的元素56比对，小于56，那么应该取15和56之间指针，找下一个节点，把这个节点load到内存，load到内存之后，再去按照这个节点元素比对，大于15，大于20，走后面元素，发现找到了49，根据二叉树的特性，那应该从它的右边的子节点定位，找到下一个指针，那这个指针对应的磁盘文件地址指指向的节点给load到内存，load出来之后，再到内存里面去比对，这样就比对到了 49这个元素对应的叶子节点。
那一旦找到了索引元素对应的节点，这个节点是一个key-value结构，里面的key存储的是49这个索引元素，里面的data存储的就是这个索引所在的那一行的磁盘文件地址指针0x90，拿到这个磁盘文件地址指针之后，然后，去到对应的MYD文件里面，快速的定位到对应的数据行，这就是myisam存储引擎一条sql语句的底层的一个完整的执行过程。

InnoDB存储引擎之B+树检索原理

MyISAM存储引擎的B+树索引原理，实际上也就是myisam底层对一条sql语句通过索引进行查询的执行过程，那InnoDB这种存储引擎，底层对一条SQL语句通过索引进行查询的执行过程，跟myisam有一点区别。MySQL工程师在设计的时候，实际上把InnoDB的表数据的文件，把这个文件本身就用了一个B+树来组织并存储数据，也就是把InnoDB表的数据和索引放到了一个文件中，就是ibd文件。那还是通过主键索引来进行举例，它本身大概的一个结构，如图：
从这张结构图，就可以看出InnoDB的ibd文件，它本身就是一个索引结构，而且它还把这张表里面那些索引的数据，包括表的数据，都存放到这一棵B+树上面来，这个B+树的非叶子节点和叶子节点的索引元素，跟myisam的存储引擎是一样的，但是叶子节点这个地方，有一点区别。叶子节点这里的key-value结构中的data部分，不再是放磁盘文件地址指针，它放的是具体的数据。
那么，InnoDB和MyISAM索引存放的区别，就在这个叶子节点的data元素上面，InnoDB存储引擎，它是把索引所在的这一行的其他剩余的所有的字段，全部放到叶子节点的 data这个地方来，也就是索引和数据合并了，它是怎么合并的，就是把数据放到也放到叶子节点上面。那这个ibd文件，它底层组织的一个方式，就是索引和数据，它们是存储在一起的。

聚集索引和非聚集索引：

通过 MySQL底层对InnoDB 和 MyISAM存储引擎的索引和数据的文件存储结构，以及检索原理，可以引申出两个概念，聚集索引和非聚集索引。
聚集索引，又叫做聚簇索引，指的是索引和数据聚集在一个文件里面，innodb存储引擎的主键索引，就是一个聚集索引。
非聚集索引，指的是索引和数据分开存储，没有聚集在一个文件里，在不同的文件中，myisam存储引擎的主键索引，就是一个非聚集索引。
那它们查找数据的区别在于，非聚集索引，它要查找两次，要先过滤myi文件，然后还要过滤myd文件。而聚集索引，它就只要在一个ibd文件里面进行查找，一个文件全部搞定。因此聚集索引的查找效率，肯定比非聚集索引性能要高。

HASH表索引和数据的检索原理

根据MySQL底层数据结构与存储引擎的关系，MySQL底层的一种存储引擎可以用很多数据结构。对于InnoDB存储引擎，底层索引结构，不仅可以选择BTREE结构(默认)，还可以选择HASH结构。
那实际上HASH 结构用的很少，所以当建立一个索引时，MySQL会默认选择BTREE。但如果底层选用HASH表来存储索引，当插入数据的时候，它会把这个索引的每一个字段，做一个HASH运算HASH(5)，得到一个结果值，也就是一个散列值，然后把这个散列值跟它的这一行数据的磁盘文件地址指针，把它们都存储到一个HASH的映射表里面去。
也就是在这张 HASH映射表里面存储的，就是索引列的每一个字段通过某一个HASH运算得到的一个散列值，以及这个索引所在行的磁盘文件地址的一个映射关系。因此，不管你数据库表有多少行，假设你有10亿行数据，我要查找某一行数据，也只要经过一次hash运算，就能够快速的定位到这一行数据的磁盘文件地址指针。
如果单从定位的角度考虑，可以说 hash的定位的效率远比B树更高，但HASH只适用于精确的查找某一行数据，如果是范围查找，HASH就没辙了。所以，hash索引的缺点，就在于它对范围查找的支持是非常差的。

B+树索引对范围查找的支持(叶子节点间指针的作用)：

假设用HASH表来存储索引，还是这张表：

HASH 范围查找的缺点

如果把这个col1作为索引，再来查这条sql语句的话，select * from t where t.col1=6，用索引来查找，col1是索引，而且是hash索引，那要查找这个元素很简单，通过对要查找的元素做一个hash运算，只要经过一次HASH运算，得到了一个散列值，然后去到我们的hash表里面，快速的就可以定位到这个索引所在那一行的磁盘文件地址指针。所以HASH索引是非常非常快的。但实际的工作中，99.9%以上的情况，都是用B树索引，而不是用hash。
hash索引用来精确的查找某一行数据时，确确实实比B树是快的但如果把，select * from t where t.col1 = 6，这条sql改成，select * from t where col1>6，要查询这条sql的结果集，那再用hash索引来查，一次hash运算，只能定位到6，那大于6的元素到底是哪些，根本就没办法去算，也就是范围查找，hash索引就没辙了。但是往往工作中的业务系统，是不可能离开范围查找的。你说你没有范围查找，那我得想象一下，你这个数据系统，你这个业务系统的业务得多简单，所以不可能说没有范围查找。一般来说，都需要范围查找。
那hash索引的缺点，就在于它对范围查找的支持是非常差的。那B+树，能不能够很好的支撑范围查找，

B+树范围查找的优势：

根据 B+树对 B树的改造，B+树的结构中的叶子节点里面就有这么一个指针，假设要查找col>20，它的查找过程，首先快速定位到叶子节点中 20这个元素，定位到20之后，那要再查找大于20 的元素，是不是相当相当easy。那根据BTREE的特性，叶子节点的所有元素，从左到右依次递增，所以完完全全就可以先把这个当前大节点的 20后面的所有元素放到这么一个结果集里面，然后，通过每个叶子节点之间的指针，指针也存储在这个节点，按照这个指针顺藤摸瓜，把后面的所有的元素，全部放到这么一个集合里面来，如果你面还有元素，就全部放过来了，这样就相当就容易支持了范围查找。

B树范围查找的缺点：

B+树叶子节点之间的指针，是对B树的改造之一，原生的B树是没有这一个指针的，那B树实际上对范围查找，也是支持的不好。如果是B树，没有这个指针，它要支持范围查找，是很麻烦的，大于20，先从根节点定位到20的这个元素，找到20的元素后，把当前节点后面这几个元素放到一个集合里面，由于当前节点的后面没有指针，那要再一次，从根节点再次定位到后面的元素，放到集合里面后，还要又回到根节点，再次去定位后面的元素，相比于B+树多麻烦。

基于B+树建立更精准的高性能索引。

由于 B+树相比于 HASH表对范围查找的支持，和对原生B树进行的种种改造后的各种优势，所以，B+树作为MySQL的底层索引结构，是非常适合各种 sql查找的各种业务场景，而且它是一个非常折中，而且性能又非常高的一种数据结构。这也就是为什么使用mysql的innodb存储引擎时，大多数的数据表底层，会用B+树这种数据结构来存储索引，说白了，它太优秀了。

MySQL的InnoDB表必须有主键索引

那前述所有MySQL索引相关的各种概念和原理，都是把主键索引作为案例，或者说，都是单值索引。那如果一张表没有任何索引，这里只讨论InnoDB的表。那如果一张InnoDB的表没有主键索引怎么办。
实际上，MySQL在设计的时候，它的数据就是按照B+树去组织的，MySQL它要求一张InnoDB的表，必须要有一个主键，而主键一定是索引。如果没有主键，这个数据它是没办法组织的。当然，我们建一张InnoDB的表，如果没有建任何主键，也能建成功。但没有建主键，不代表它没有主键。
当在MySQL中建了一张InnoDB的表，如果没有建主键，MySQL 它会在你的表里面，选择一个唯一标识索引的列，如果没有这个唯一标识索引的列，就选择一个数据唯一标识的列，它会找这样的一列，后台默认给你建一个主键，如果它找不到可以这样标识唯一数据的那一列，ok，它会在你的表里面给你默认加一列数据，它来帮你维护这个唯一的主键索引，比如1234…，类似这样的整型自增的列。它在后台来帮我们维护，我们是看不到的。
所以，InnoDB的表必须有主键索引这么一列，来帮我们组织整张表的数据。也就是InnoDB的表，它是必须要有主键索引的，因为它设计如此。

InnoDB主键推荐使用整型且自增的

如果InnoDB的表没有任何主键，又没有唯一索引，那么MySQL会默认加一列数据，作为唯一标识的主键索引来维护，而且这个默认的主键就是整型且自增的。
InnoDB的表必须有主键，那么当我们自己建这个主键时，也推荐使用整型且自增的。早期很多公司会选用uuid作为InnoDB表的主键，这样使用起来相当easy，非常简单。而用uuid刚好与推荐的整型自增，是一个反例情况。下面就通过与uuid对比阐述下整型自增主键的优势在哪里。

为什么要使用整型主键

首先，当通过 B+树，或者说在二叉树中去查找一个元素的时候，这个查找过程，要从根节点开始，不断的比较大小，找打下一个节点的位置，再去比较。那么，如果在找某一个索引节点元素，中间有大量的比较这样的操作。
如果用uuid去做比较的话，uuid本身是一长串字符串，比如abc什么什么，bcd什么什么。字符串比较大小，它要先转换成ASCII码，也就是国标码，然后，按照国标码的那个排序，一个一个去比较一下大小，如果前面几位都相同的话，它还要比较后面的位数，相当麻烦；而整型是数字，比如1<2，这样的比较。显然，uuid比较大小，绝对没有整型比较大小快的效率高，性能好。
另外，uuid位数特别长。跟整型来比较的话，整型占用的空间，远远小于uuid。从我们磁盘的那个占用空间的角度来说，如果要节约一点的话，使用整型也更好一点。这对于dbm而言，推荐使用整型，能给我节约空间，我少花一点钱买磁盘。无论从性能，还是磁盘使用率的角度，整型都是更好的选择。

为什么要使用自增主键

B+树索引结构的从左到右递增趋势

那为什么要使用自增主键，这需要从B+树自身的一个特性说起，B+树，它有一个特点，如果 B+树的每一个小的分叉，其实都符合二叉树的特点，也就是一颗小二叉树，右边节点的这个元素是大于等于它的左边节点父元素的；而左边节点的所有元素，是小于它的右边节点的父元素。也就是当插入某一行数据，在维护索引的时候，它会按照这么一个树的特性，来维护这个索引结构中的各个节点。
如果有这么一个特性的话，在这棵树里面的每一层的节点，它从左到右也是按照递增的顺序来维护；然后，任何一个节点里面，它从左到右，也是一个递增的一个趋势来存放元素位置的，这也是B+树的一个特性。那也就是，在每一个节点，它从左到右是依次递增的，然后这两个节点之间，它也是递增的，就右边的节点的所有元素，肯定是大于等于左边的元素。等于时，因为它中间有个父节点。
那么，它的整个结构，它的特性就是从每一层，到每一个节点，再到每个节点里面，从左到右，都是以一个递增的趋势，依次递增的，也有可能是相等的。也就是既然每一个大节点，大节点与大节点之间，它也是从左到右依次递增的一个趋势，那我这一个索引元素，在叶子节点里面，从左到右，应该来说，也是一个递增的趋势。

自增主键的优势

那基于B+树对索引的维护的一个特点，就是从左到右依次递增的这个特点。如果主键索引是自增趋势的，也就是 InnoDB的表在插入数据时，是以主键索引依次递增的顺序来插入数据的，这刚好与 B+树对索引元素以从左到右依次递增的这个特点相吻合。
那么再回到uuid，如果用uuid做主键索引的话，因为uuid是随机生成的，所以uuid的大小也是随机的，一定不是自增的。假设一张InnoDB的表里面，现在已经有很多行数据了，那我再插入一行数据，如果是用uuid这种来插入的话，那插入的这一行数据，就要把uuid这一个索引字段维护到 B+树里面来。
根据B+树的特点，它是依次递增维护的，那新插入的uuid 这个索引，按照这个从左到右依次递增的顺序，它很有可能要放到 B+树中间位置的某一个叶子节点中，MySQL中每个节点占16KB内存空间，这时很有可能这个节点的16KB已经放满了，但是我们现在又必须要保证 InnoDB表的这个B+树索引结构，这个叶子节点从左到右依次递增的这个顺序，那现在要把新加入这一行uuid数据的索引字段，维护进B+树里面去，就会引发一个问题，节点的分裂与树的自动平衡问题。
那如果这个主键是一个递增的，是一个递增插入的顺序，那就永永远远都是往最后面去加入元素，那就基本上很小的概率，会导致往这个节点的中间去插元素，然后，节点没有空间去存储了，让它去做一个分裂，分裂后，可能还要再做树平衡。而节点的分裂和树的自动平衡，都是有大量的运算要做的，对性能是有很大影响的。所以，dbm会推荐尽量使用自增的主键，这样，插入数据时，永远都在最后面去加元素，要造成某一个节点分裂的概率，非常非常小。

InnoDB表整型自增主键示例演示：

B+树的整型自增主键可以通过数据结构学习网站来演示如下：
B+树已经插入了1234567，假设再来插入一个9 和10，
然后，再插入一个8，按道理来说，我们这个7，9，10，这个节点，只能放3个元素，我再插入8，按照递增顺序插入的规则，现在插一个8，那要维护这个索引按照从左到右依次递增的这么一个顺序的话，8应该插入7和9之间这个位置，那插入这个8，看一下会是一个什么样的效果，
会发现哇塞，原来那一个大节点，给分裂了，变成两个小节点，而且树还做了一个自动平衡，2层变成了 3层树，节点分裂和树平衡是各个节点重新排序，那这都是有性能开销的。

联合索引

主键索引是单值索引，我们工作中用的最多的就是联合索引。我们公司里面一般都有规范，尽量不要建单值索引，一般是要几个字段，建成一个联合索引，一起来使用。
联合索引，就是把几个字段，按照出现的顺序，放到一个节点里面去存储。比如a、b、c，这3个字段，共同建立一个联合索引，KEY `idx_a_b_c` (`a`,`b`, `c`) USING BTREE，那么，联合索引的几个字段，在索引节点里面的存储顺序，就是 a在前面，b在中间，c在后面。
实际上，联合索引和单值索引的原理都是一样的，只不过联合索引的排序规则，或者说，索引节点比较大小的规则，与单值索引有些区别。联合索引的排序规则，是按照联合索引中字段出现的顺序逐个来比较，如果第一个字段能区分大小，那就按第一个字段的比较结果来排序。如果第一个字段的值是一样的，那就并列，接下来以同样的规则去比较后面的联合索引字段。

联合索引示例：

那假设现在有一个InnoDB的联合主键索引，有3个字段。结构示意图如下：
那联合索引的 3个字段，按照出现的顺序 a在前面，b在中间，c在后面，那依次的，在索引节点里面10002就是a字段，Staff就是b字段，1996-08-03就是c字段，把几个联合索引放到一个这样的节点里面去存储。然后非叶子节点里面存放索引，那叶子节点里面，它就放索引和数据，如果是一个InnoDB的联合主键索引，那它就是这么按顺序来放 abc3个联合索引元素，叶子节点的data里面放的就是这个联合索引所在行的其他字段。
联合索引中的每个字段在一个节点中是按照字段出现的顺序来放的，联合索引它的排序规则是按照字段逐个来比较的。比方，第一个字段是整型的，如果能区分大小，那它就按照第一个字段的比较结果这么来排序。那如果我前面的第一个字段是一样的，比如左边子节点的三行记录，它的第一个字段是一样的，那就并列排。接下来比第二个字段，第二个字段是一个字符串，varchar类型的，那就按照varchar类型来比较。那如果第二个字段也一样的，那就第三种情况，左边子节点的两行数据，这个节点里面，连它的前面两个字段都一样，那就按照最后一个字段，去比大小，这就是联合索引排序的整个过程。

基于联合索引的SQL优化实践：

单值索引底层的数据结构，它的查找索引的过程相对简单，工作中用的最多的是联合索引，那么理解底层的数据结构，这个非常重要。MySQL索引常见的优化原则，优化军规，少则几十条，多则上百条，这些乱七八糟的MySQL索引优化原则，80%以上，都可以从联合索引底层的数据结构上面去理解。
MySQL的优化原则有很多很多，想要机械的区背它们，是不切实际的，而且背下来也容易忘，没意义。所有的索引优化原则，都结合索引的底层数据结构，只要思考一遍，把它们思考清楚，从索引的数据结构，去理解它们。你都理解了，就在也不要去背了，已经深深的印在你的脑海里。
那现在就通过联合索引的底层数据结构，去理解 mysql最佳优化的手册，其中有一个叫做全值匹配，以及最左前缀法则。
比方说这张表，有3个字段 name，age，position，建了一个联合索引，KEY `idx_name_age_position` (`name`,`age`, `position`) USING BTREE，如下图：
那分析，EXPLAIN SELECT * FROM employees WHERE age = 22 AND position=‘manager’;，这一条sql，它是不会走索引的，这里面就涉及到最左前缀法则。如果索引了多列，要遵守最左前缀法则，它指的是查询从索引的最左前列开始并且不跳过索引中间列。结合联合索引底层存储结构，就可以很轻松把这条最左前缀原则思考清楚。

分布式主键实现简述：

如果是单库主键，可以很轻松的使用整型自增主键。那如果是分布式主键，系统将来要做了分库分表，或者说，做分布式架构的一个改造。那分库分表就好像没办法用自增主键了，因为一张表拆到不同库，它还怎么自增，或者说用整型自增。而uuid又有那么多问题，性能问题，以及它浪费空间。
那实际上对于分库分表，这种场景，对于分布式架构来说，也有使用整型的方式来生成主键，一是可以用雪花算法，它也是一个自增的整型的一个主键，但它比较复杂。当然，其实除了雪花算法支持分库分表之外，还可以用redis 来实现自增的主键，而且它还可以方便的运用在我们的分库分表场景。
对于并发很高的，有几百张表，而且每张表的操作都很频繁。那怎么对redis去优化，用redis来做，支撑这种高并发系统，多库多表之间，频繁高并发生成主键的，这么一个场景。就是另外一个话题了。
总之，对于分库分表，分布式架构的场景。不一定非要用雪花算法，用redis也是可以搞定的。

.参考文献

图灵课堂-诸葛老师

1.一文吃透MySql的底层数据结构（满满都是干货）.

2.mysql底层数据结构.

3.MySQL底层数据结构.

4.MySQL数据页为什么是16K mysql数据页存储数据结构.

5.B+树相关数据结构和算法.

6.关于查找树的总结【BST、AVL、红黑树、B树、B+树】.

7.平衡二叉树与红黑树.

Water Fan

关注

9
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
MySQL

遍历：暴力查找；二分：B+树的基础算法；键查找：hash查找；索引类似于一本教科书前面的目录页，方便根据目录页的索引序列页数，定位到要查找的内容。但这种解释，只能停留在一个大学时教科书式的解释，是非常浅层次的，听完也不知道索引到底是什么东西。那要揭开索引的本质，就必须理解索引的底层的数据结构以及相关的查找算法。
复制链接

扫一扫