MySQL架构、日志事务以及索引介绍

最新推荐文章于 2023-10-03 14:29:29 发布

kangswx

最新推荐文章于 2023-10-03 14:29:29 发布

阅读量277

点赞数

分类专栏： MySQL 文章标签： MySQL架构 MySQL日志 MySQL索引 MySQL事务

本文链接：https://blog.csdn.net/kangswx/article/details/100011185

版权

MySQL 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

MySQL分为server层和存储引擎层
server层
1. 连接器：管理连接权限验证
2. 查询缓存：命中缓存，直接换回结果
3. 分析器：分析语法
4. 优化器：生成执行计划，选择索引
5. 执行器：操作索引，返回结果
存储引擎：

存储引擎负责数据的存储和提取，器架构是插件式的，innodb在MySQL5.5.5版本开始成为MySQL的默认存储引擎
1. InnoDB：支持事务，支持外键，InnoDB是聚集索引，数据文件和索引绑在一起的，必须要有主键，通过主键查询的效率很高。但是辅助索引需要两次查询，先查询到主键，然后再通过主键查询到数据，不支持全文索引。
2. MyISAM：不支持事务，不支持外键，MyISAM是非聚集索引，数据文件是分离的，索引保存的是数据文件的指针，主键索引和辅助索引是独立的，查询效率上MyISAM要高于InnoDB，因此做读写分离的时候一般选择用InnoDB做主机，MyISAM做从机。
3. Memory：有比较大的缺陷使用场景较少，文件数据都存储在内存中，如果mysqld进程发生异常时，重启或关闭都会机器这些数据都会消失。
SQL的执行过程
1. 客户端连接上MySQL的连接器，连接器获取权限，维持管理连接；连接完成后，如果没有后续的指令，这个连接就处于空闲状态。如果太长时间不适用这个连接，这个连接就会断开，空闲时长默认是8小时，由 wait_timeout 参数控制。
2. 往MySQL数据库发送一条SQL，这个时候查询缓存开始工作，看看之前有没有执行过这个SQL，如果有则直接返回缓存数据到客户端，只要对表执行过更新操作缓存都会失效，因此一些很少使用更新的数据表可考虑使用数据库缓存，对频繁更新的表使用缓存反而弊大于利，使用缓存的方法如以下SQL，通过SQL_CACHE指定。
```
select SQL_CACHE * from table where xxx = xxx
```
3. 当未命中缓存的时候，分析器开始工作，分析器判断是select还是update还是insert，分析语法是否正确。
4. 优化器根据表的索引和SQL语句决定采用哪个索引，决定join的顺序。
5. 执行器执行SQL，调用存储引擎的接口，扫描遍历表，或者插入更新数据。
MySQL日志：MySQL有两个重要的日志，redolog和binlog，redolog是属于InnoDB的日志，binlog则属于Server层的日志。
1. redolog又称作重做日志，用于记录事务操作的变化，记录的是数据修改后的值，不管事务是否提交都会记录下来。它在数据库重启恢复的时候被使用，InnoDB利用这个日志恢复到数据库宕机前的状态，以此来保证数据库的完整性。redolog是物理日志，记录的是某个表的数据做了哪些修改，redolog是固定大小的，也就是说后面的日志会覆盖前面的日志。
2. binlog又称作归档日志，它记录了对MySQL执行更改的所有操作，到不包括select和show这类的操作，binlog是逻辑日志，记录的是某个表执行了哪些操作，binlog是以追加的形式写入日志，后面的日志不会被前面的覆盖。
数据的更新过程，执行一个更新操作的过程如下：

读取对应的数据到内存 -> 更新数据 -> 写redolog日志 -> redolog日志的状态为prepare -> 写binlog日志 -> 提交事务 -> redolog日志状态状态为commit，数据正式写入日志文件。我们发现redolog日志的提交是"两段式提交"，这样做的目的是为了数据恢复的时候确保数据恢复的准确性，因为数据恢复是通过备份的binlog来完成的，所以要确保redolog和binlog一致。
索引：索引按照数据结构可以分为哈希表、有序数组、搜索树、跳表：
1. 哈希表适用于只有等值查询的场景；
2. 有序数组适用于等值查询和范围查询的场景，但有序数组的更新代价很大，所以最好用于静态数据表；
3. 搜索树的搜索效率稳定，不会出现大幅波动，而且基于索引的顺序扫描时，也可以利用双向指针快速左右移动，效率非常高；
4. 跳表可以理解为优化后的哈希索引
InnoDB使用了B+tree索引模型，而且是多叉树。虽然二叉树的索引效率是最高的，但是索引需要写入磁盘，如果使用二叉树磁盘io会变得很频繁。在InnoDB中分为主键索引(聚簇索引)和非主键索引(二级索引)。主键索引包含了该行数据的全部信息，二级索引保存了该行数据的主键，所以使用二级索引的时候会先查出主键的值，然后回表查询出数据，而使用主键索引则不需要回表。
对二级索引而言可以使用覆盖索引来优化SQL，如下
```
select * from table where key = 1;
select id from table where key = 1;
```
key是一个二级索引，第一条sql是先查出id，然后根据id回表查询出真正的数据，而第二条查询索引后直接返回数据不需要回表。第二条sql索引key覆盖了我们查询的需求，称作覆盖索引。
普通索引和唯一索引：

InnoDB是按照数据页来读数据的，当要读取一条数据的时候，先将本页数据全部读入内存，然后找到对饮的数据，而不是直接读取，每页数据的默认大小为16KB。

当一个数据页需要更新的时候，如果内存中有盖数据页就直接更新，如果没有数据页则在没有影响数据一致性的前提下，将更新操作先更新到change buffer中，在下次查询需要访问这个数据页的数据的时候再写入更新操作，除了查询会将change buffer写入磁盘中。对于唯一索引来说，所有的操作都要先判断这个操作是否会违反唯一性约束，因此唯一索引的更新无法使用change buffer，而普通索引可以，唯一索引更新比普通索引更新多一个唯一性校验的过程。
联合索引：

两个或更多个列上的索引称作联合索引(符合索引)。联合索引可减少索引的开销，以联合索引(a, b, c)为例，建立这样的索引相当于建立了a, ab, abc三个索引—MySQL从左到右的使用索引中的字段，一个索引可以只是用索引中的一部分，但只能使用最左侧的部分，而且当最左侧的索引字段是常量引用时，就十分有用，这就是最左前缀原则。由最左前缀原则可知，组合索引是有顺序的，那么哪个索引放在前面就比较有讲究了。对于组合索引还有一个点，就是索引下推。
索引下推：

假设有索引(a, b, c)，有如下的SQL：
```
select * from table where a = XXX and b = XXX;
```
这个SQL会进行两次筛选，第一次查出a = XXX的数据，再从a = XXX中查出b = XXX的数据。使用索引下推和不适用索引下推的区别在于：不使用索引下推会先查出a = XXX的数据的主键，然后根据查询出的主键回表查询出全行数据，再在全行数据上查询区b = XXX的数据；而索引下推的执行过程是先查出a = XXX数据的主键，然后再这些主键上二次查询出b = XXX的主键，然后回表。
索引下推的特点：
1. InnoDB引擎的表，索引下推只能用于二级索引
2. 索引下推一般可用于所查询字段不全是联合索引的字段，查询的条件为多条件查询且查询条件子句字段全是联合索引。
前缀索引：

有时候需要索引很长的字符列，这回让索引变的很大很慢还占内存。通常可以以开始的字符部分作为索引，这就是前缀索引。这样就可以大大节约索引空间，从而提高索引效率，但这样也会降低索引的选择性。
脏页对数据库的影响：

当内存数据页和磁盘的数据不一致的时候我们成这个内存页为脏页，内存数据写入磁盘后数据一致，成为干净页。当要读入数据而数据库没有内存的时候，就需要淘汰内存中的数据页，干净页可以直接淘汰，而脏页需要先刷入磁盘再淘汰。如果一个查询要淘汰的脏页太多会导致查询的时间边长。为了减少脏页对数据库性能影响，InnoDB会控制脏页的比例和脏页的刷新时机。