MySQL锁与索引

最新推荐文章于 2024-07-20 19:05:22 发布

YangzaiLeHeHe

最新推荐文章于 2024-07-20 19:05:22 发布

阅读量748

点赞数

分类专栏：【数据库】【面试题】

本文链接：https://blog.csdn.net/YangzaiLeHeHe/article/details/93000080

版权

【面试题】同时被 2 个专栏收录

48 篇文章 1 订阅

订阅专栏

【数据库】

5 篇文章 0 订阅

订阅专栏

一、关系型数据库

关系型数据库：架构、索引、锁、语法、理论范式。

二、如何设计一个数据库：

首先因为数据库是用来存储数据的，所以我们需要有一个存储模块（存储文件系统），我们将数据存储在磁盘硬盘上之后，需要用程序来对数据进行管理，所以此时需要有个程序实例来管理存储模块。程序实例当中需要有存储管理模块（以块或者页来表示）此外还需要使用缓存机制来优化我们的数据库提升效率。还需要SQL解析模块、日志管理模块。也需要权限划分模块。也需要容灾机制。接下来为了提升数据库的查询速度和处理并发我们需要索引管理和锁管理模块。

三、索引模块

A、为什么要使用索引。

如果我们使用最简单的方式来进行数据查找，也就是进行全表扫描，将数据全部或者分批次的加载到内存当中，然后逐个块或者页进行轮询，如果数据量少的话还是可以的，但是数据量大的话会很慢。所以需要使用索引提升查询速率。

B、什么样的信息能成为索引。

主键、唯一键、普通键。

C、索引的数据结构。

如建立二叉查找树进行二分查找，建立B-Tree结构进行查找，建立B+-Tree结构进行查找，建立Hash结构进行查找。

二叉查找树的时间复杂度是O(logn)最坏的情况下时间复杂度是O(n)但是影响程序运行的瓶颈是磁盘IO，二叉树的节点最多只能有两个孩子，而作为索引的时候由于数据量大，所以树的深度会很深，检索速度也会慢很多。所以需要想办法将树变的矮一些，也就是让每个节点存储的数据多一些。所以我们考虑到B-Tree（根节点至少包括两个孩子，树中每个节点最多含有m个孩子m>=2,除根节点和叶节点外，其他每个节点至少有ceil( m/2 )个孩子 --- ceil函数式取上限。所有叶子节点都位于同一层。即叶子节点的高度都是一样的。）只有遵守这些就可以使得每个节点可以存储更多的信息，让树的高度更矮，就会减少磁盘的IO次数。

BTree 的每个节点存储着二元组(是一个【key(是键值信息比如id)，data(该id对应这一行的数据)】)和指针(指向下一个节点的指针)。

B-Tree结构中可以看到每个节点中不仅包含数据的key值，还有data值。而每一个页的存储空间是有限的，如果data数据较大时将会导致每个节点（即一个页）能存储的key的数量很小，当存储的数据量很大时同样会导致B-Tree的深度较大，增大查询时的磁盘I/O次数，进而影响查询效率。在B+Tree中，所有数据记录节点都是按照键值大小顺序存放在同一层的叶子节点上，而非叶子节点上只存储key值信息，这样可以大大加大每个节点存储的key值数量，降低B+Tree的高度。

【B-Tree中如果一个节点的data数据量过大那么会影响一个页中key的数量，key的数量少了，要查询到信息。自然要进行更多次的IO，所以效率还是会受到影响】

B+Tree 的每个非节点只包含包含key【键值信息】和指针；叶子节点包含data数据【所有的数据都放在叶子节点】以及链指针【用来在所有的叶子节点中进行遍历】。

详情参考该文章

B+-Tree是B树的变体，其定义基本与B树相同，除了：

非叶子节点的子树指针与关键字个数相同（B树是比关键字少一个），非叶子节点的子树指针P[i],指向关键字值[K[i],K[i+1]]的子树。非叶子节点仅用来索引，数据都保存在叶子节点中，所有叶子节点均有一个链指针指向下一个叶子节点（也就是说一旦定位到一个叶子节点的数据，就可以横向的跨子树去检索数据）。综上所述B+-Tree 更适合用来做存储索引。

大致分析如下：

B+-Tree的磁盘读写代价更低（因为子节点能存储的关键字更多了）

B+-Tree的查询效率更加稳定（因为非叶子节点都是用来做索引的数据都在叶子节点中，所以要查找数据都要走一条根节点到叶子节点的路）是稳定的O(logn)

B+-Tree更有利于对数据库的扫描（B树在提高了磁盘IO性能时并没有解决元素遍历的效率底下的问题，而B+-Tree只需要遍历叶子节点就可以解决对全部关键字的扫描）

有些数据库还支持Hash索引Hash索引的查询效率理论上高于B+-Tree ，但是他有他的缺点：

基本能满足 =、in不能使用范围查询。

无法被用来避免数据的排序操作（因为Hash索引存放的是经过Hash运算的值并不能保证和Hash运算之前的一模一样）

不能利用部分索引查询(因为hash索引是将组合索引一起进行hash运算索引不能部分索引查询。)

不能避免表扫描（因为不同索引建存在相同hash值所以即使取出某个满足 Hash键值的那些数据也无法直接从hash索引中完成查询还是要通过访问bucket中的实际数据进行相应的比较，所以不能避免表扫描）

遇到大量Hash值相等的情况后性能并不一定就会比B树索引高（就是因为bucket有可能变成线性存储结构。）

D、密集索引和稀疏索引的区别。

密集索引文件中的每个搜索码值都对应一个索引值（叶子节点保存的不仅仅是键值还有同一行其他列的信息，由于密集索引决定了表的物理排列顺序所以一个表只能有一个密集索引）

稀疏索引文件中只为索引码的某些值建立索引项（叶子节点只保存了键位信息以及该行数据的地址）

MySQL中有两种存储引擎：MyISAM和Innodb

MyIsAm不管是主键索引、唯一键索引、普通索引都是稀疏索引。

InnoDB有且仅有一个密集索引：

若一个主键被定义，该主键则作为密集索引。

若没有主键定义，该表的第一个唯一非空索引则作为密集索引。

若不满足以上条件，innoDB内部会生成一个隐藏主键（密集索引）

非主键索引存储相关键位和其对应的主键值，包含两次查找。

索引模块衍生出来的问题：

1、如何定位并优化慢SQL

根据慢日志定位慢查询SQL，使用Explain等工具分析SQL，修改SQL或者尽量让SQL走索引。

首先使用 show variables like '%query% ';可以查询相关的慢查询的东西

show status like ' %slow_queries%'；可以查询慢查询得数量。

show_query_log 、show_query_log_file、long_query_time ,

使用explain 进行分析：id表示sql的执行顺序需要注意的是type和Extra

type表示找到数据行的方式从最优到最差-system-const-eq_ref-ref-fulltext-ref_or_null-index-merge-unique-subquery-index_subquery-range-index-all index 和all 表示语句走的是全表扫描时需要优化的。