MySql进阶篇（附面试快速答法）

King Gigi.

已于 2023-08-13 16:01:37 修改

阅读量621

点赞数

文章标签： mysql 面试数据库

于 2023-06-27 14:18:06 首次发布

本文链接：https://blog.csdn.net/qq_56265207/article/details/131415458

版权

文章目录

1、慢查询
- 1.1、如何定位慢查询呢？
- - 小总结
  - 面试快速答法
- 1.2、SQL语句执行很慢, 如何分析呢？
- - 小总结
  - 面试快速答法
2、存储引擎
- 2.1、MySQL体系结构
- 2.2、存储引擎特点
- 小总结
3、索引
- 3.1、什么是索引？
- - 小总结
  - 面试快速答法
- 3.2、聚集索引和非聚集索引
- - 小总结
  - 面试快速答法
- 3.3、覆盖索引
- - 小总结
  - 面试快速答法
- 3.4、索引创建原则
- - 小总结
  - 面试快速答法
- 3.5、索引失效
- - 小总结
  - 面试快速答法
4、SQL优化
- 小总结
- 面试快速答法
5、事务
- 小总结
- 面试快速答法
6、并发事务
- 小总结
- 面试快速答法
7、undo log和redo log的区别
- 小总结
- 面试快速答法
8、MVCC
- 小总结
- 面试快速答法
9、主从同步
- 小总结
- 面试快速答法
10、分库分表
- 拆分策略
- 小总结

思维导图

在这里插入图片描述

1、慢查询

在MySQL中，如何定位慢查询?

这时要结合自己项目的业务，想一下，出现慢查询的原因是啥？

聚合查询考虑新增一个临时表
多表查询优化sql语句的结构
表数据量过大查询添加索引
深度分页查询

慢查询的表现是啥？

页面加载过慢，接口压测响应时间过长（超过1s）

1.1、如何定位慢查询呢？

方案一：开源工具

调试工具：Arthas，用命令的方式监控已上线的项目，可以跟踪执行比较慢的方法，查看方法的执行时间
运维工具：Prometheus、Skywalking 查看接口的响应情况，还提供了一个追踪的功能，详细查看接口的执行情况

方案二：MySql自带慢日志

慢查询日志记录了所有执行时间超过指定参数（long_query_time，单位：秒，默认10秒）的所有SQL语句的日志

如果要开启慢查询日志，需要在MySQL的配置文件（/etc/my.cnf）中配置如下信息：

在这里插入图片描述

配置完毕之后，通过以下指令重新启动MySQL服务器进行测试，查看慢日志文件中记录的信息

/var/lib/mysql/localhost-slow.log

在这里插入图片描述

小总结

如何定位慢查询?

介绍一下当时产生问题的场景（我们当时的一个接口测试的时候非常的慢，压测的结果大概5秒钟）
我们系统中当时采用了运维工具（ Skywalking ），可以监测出哪个接口，最终因为是sql的问题
在mysql中开启了慢日志查询，我们设置的值就是2秒，一旦sql执行超过2秒就会记录到日志中（调试阶段），生产场景下不会开启，因为会损失性能

面试快速答法

在这里插入图片描述

1.2、SQL语句执行很慢, 如何分析呢？

可以采用EXPLAIN 或者 DESC命令获取 MySQL 如何执行 SELECT 语句的信息

在这里插入图片描述

这里我们需要了解一些重要的字段

possible_key 当前sql可能会使用到的索引
key 当前sql实际命中的索引
key_len 索引占用的大小
Extra 额外的优化建议

通过key和key_len查看是否可能会命中索引

Extra额外的优化建议：

Extra	含义
Using where; Using Index	查找使用了索引，需要的数据都在索引列中能找到，不需要回表查询数据
Using index condition	查找使用了索引，但是需要回表查询数据

另外还有type字段：指这条sql的连接类型，性能由好到差为NULL、system、const、eq_ref、ref、range、index、all

system：查询系统中的表
const：根据主键查询
eq_ref：主键索引查询或唯一索引查询
ref：索引查询
range：范围查询
index：索引树扫描
all：全盘扫描

index和all性能就太低了，需要做优化

小总结

那这个SQL语句执行很慢, 如何分析呢？

可以采用MySQL自带的分析工具 EXPLAIN

通过key和key_len检查是否命中了索引（索引本身存在是否有失效的情况）
通过type字段查看sql是否有进一步的优化空间，是否存在全索引扫描或全盘扫描
通过extra建议判断，是否出现了回表的情况，如果出现了，可以尝试添加索引或修改返回字段来修复

面试快速答法

在这里插入图片描述

2、存储引擎

MYSQL支持的存储引擎有哪些, 有什么区别 ?

存储引擎：就是存储数据、建立索引、更新/查询数据等技术的实现方式。存储引擎是基于表的，而不是基于库的，所以存储引擎也可被称为表类型。

特性	MyISAM	InnoDB	MEMORY
事务安全	不支持	支持	不支持
锁机制	表锁	表锁/行锁	表锁
外键	不支持	支持	不支持

2.1、MySQL体系结构

在这里插入图片描述

2.2、存储引擎特点

InnoDB：

InnoDB是一种兼顾高可靠性和高性能的存储引擎，在 MySQL 5.5 之后，InnoDB是默认的 MySQL 存储引擎。

特点：

DML操作遵循ACID模型，支持事务
行级锁，提高并发访问性能
支持外键 FOREIGN KEY约束，保证数据的完整性和正确性

文件：

xxx.ibd : xxx代表的是表名，innoDB引擎的每张表都会对应这样一个表空间文件，存储该表的表结构（frm、sdi）、数据和索引。
xxx.frm 存储表结构文件（MySQL8.0时，合并在 xxx.ibd 中）

小总结

MYSQL支持的存储引擎有哪些, 有什么区别 ?

在mysql中提供了很多的存储引擎，比较常见有InnoDB、MyISAM、Memory

InnoDB存储引擎是mysql5.5之后是默认的引擎，它支持事务、外键、表级锁和行级锁
MyISAM是早期的引擎，它不支持事务、只有表级锁、也没有外键，用的不多
Memory主要把数据存储在内存，支持表级锁，没有外键和事务，用的也不多

存储引擎在mysql的体系结构哪一层，主要特点是什么

MySQL体系结构
InnoDB存储的特点

3、索引

3.1、什么是索引？

了解过索引吗？（什么是索引）

索引（index）是帮助MySQL高效获取数据的数据结构(有序)
用来提高数据检索的效率，降低数据库的IO成本
通过索引列对数据进行排序，降低数据排序的成本，降低了CPU的消耗

索引的底层数据结构了解过嘛 ?

MySQL默认使用的索引底层数据结构是B+树。再聊B+树之前，我们先聊聊二叉树和B树

在这里插入图片描述

数据结构对比

B-Tree，B树是一种多叉路平衡查找树，相对于二叉树，B树每个节点可以有多个分支，即多叉。

以一颗最大度数（max-degree）为5(5阶)的b-tree为例，那这个B树每个节点最多存储4个key，每个key都有一个指针

在这里插入图片描述

可以看到，在B树中，叶子节点和非叶子节点都会存放数据；

B+Tree是在BTree基础上的一种优化，使其更适合实现外存储索引结构，InnoDB存储引擎就是用B+Tree实现其索引结构

在这里插入图片描述

在B+树中，所有的数据都存储在叶子节点

B树与B+树对比:

①磁盘读写代价B+树更低，非叶子节点只存储指针，叶子节点存储数据；

②查询效率B+树更加稳定；

③B+树便于扫库和区间查询，叶子节点是一个双向链表；

小总结

了解过索引吗？（什么是索引）

索引（index）是帮助MySQL高效获取数据的数据结构(有序)
提高数据检索的效率，降低数据库的IO成本（不需要全表扫描）
通过索引列对数据进行排序，降低数据排序的成本，降低了CPU的消耗

索引的底层数据结构了解过嘛 ?

MySQL的InnoDB引擎采用的B+树的数据结构来存储索引

阶数更多，路径更短
磁盘读写代价B+树更低，非叶子节点只存储指针，叶子节点存储数据
B+树便于扫库和区间查询，叶子节点是一个双向链表

面试快速答法

在这里插入图片描述

3.2、聚集索引和非聚集索引

什么是聚簇索引什么是非聚簇索引 ?

什么是聚集索引，什么是二级索引（非聚集索引），什么是回表？

分类	含义	特点
聚集索引(Clustered Index)	将数据存储与索引放到了一块，索引结构的叶子节点保存了`每一行数据`	必须有,而且只有一个
二级索引(Secondary Index)	将数据与索引分开存储，索引结构的叶子节点关联的是对应的`主键`	可以存在多个

聚集索引选取规则:

如果存在主键，主键索引就是聚集索引。
如果不存在主键，将使用第一个唯一（UNIQUE）索引（默认选择）作为聚集索引。
如果表没有主键，或没有合适的唯一索引，则InnoDB会自动生成一个rowid（隐藏列）作为主键索引来存储这个表的数据行。

在这里插入图片描述

通过二级索引找到对应的主键值，到聚集索引中查找整行数据，这个过程就是回表

小总结

什么是聚簇索引什么是非聚簇索引 ?

聚簇索引（聚集索引）：数据与索引放到一块，B+树的叶子节点保存了整行数据，有且只有一个（一般是主键）

非聚簇索引（二级索引）：数据与索引分开存储，B+树的叶子节点保存对应的主键，可以有多个

知道什么是回表查询嘛 ?

通过二级索引找到对应的主键值，到聚集索引中查找整行数据，这个过程就是回表

面试快速答法

在这里插入图片描述

3.3、覆盖索引

知道什么叫覆盖索引嘛 ?

覆盖索引是指查询使用了索引，并且需要返回的列，在该索引中已经全部能够找到

在这里插入图片描述

可以看到有第三条sql语句，下面我们具体看看

在这里插入图片描述

小总结

知道什么叫覆盖索引嘛 ?

覆盖索引是指查询使用了索引，返回的列，必须在索引中全部能够找到

使用id查询，直接走聚集索引查询，一次索引扫描，直接返回数据，性能高。
如果返回的列中没有创建索引，有可能会触发回表查询，尽量避免使用select *

MYSQL超大分页怎么处理 ?

问题：在数据量比较大时，limit分页查询，需要对数据进行排序，效率低

解决方案：覆盖索引+子查询

MYSQL超大分页处理

在数据量比较大时，如果进行limit分页查询，在查询时，越往后，分页查询效率越低。

我们一起来看看执行limit分页查询耗时对比：
在这里插入图片描述

因为，当在进行分页查询时，如果执行 limit 9000000,10 ，此时需要MySQL排序前9000010 记录，仅仅返回 9000000 - 9000010 的记录，其他记录丢弃，查询排序的代价非常大。

优化思路:

一般分页查询时，通过创建覆盖索引能够比较好地提高性能，可以通过覆盖索引加子查询形式进行优化

在这里插入图片描述

面试快速答法

在这里插入图片描述

3.4、索引创建原则

索引创建原则有哪些？

先陈述自己在实际的工作中是怎么用的
主键索引
唯一索引
根据业务创建的索引(复合索引)

索引创建原则

针对于数据量较大，且查询比较频繁的表建立索引单表超过10万数据
针对于常作为查询条件（where）、排序（order by）、分组（group by）操作的字段建立索引
尽量选择区分度高的列作为索引，尽量建立唯一索引，区分度越高，使用索引的查询效率越高
如果是字符串类型的字段，字段的长度较长，可以针对于字段的特点，建立全缀索引
尽量使用联合索引，减少单列索引，查询时，联合索引很多时候可以覆盖索引，节省存储空间，避免回表，提高查询效率
要控制索引的数量，索引越多，维护索引结构的代价也就越大，会印象增删改的效率
如果索引列不能存储NULL值，请在创建表时使用NOT NULL 约束，当优化器知道每列是否包含NULL 值时，可以更好的查询哪个索引最有效的用于查询。

小总结

索引创建原则有哪些？

数据量较大，且查询比较频繁的表 重要
常作为查询条件、排序、分组的字段 重要
字段内容区分度高
内容较长，使用前缀索引
尽量联合索引，因为可以更好的使用覆盖索引，避免回表 重要
要控制索引的数量 重要
如果索引列不能存储NULL值，请在创建表时使用NOT NULL约束它

面试快速答法

在这里插入图片描述

3.5、索引失效

什么情况下索引会失效 ?

举个栗子

给tb_seller创建联合索引，字段顺序：name，status，address

在这里插入图片描述

那如何判断索引是否失效了呢？

要解决这个问题，我们需要知道什么情况下索引会失效？

违法最左前缀法则

如果索引了多列，要遵守最左前缀法则。指的是查询从索引的最左前列开始，并且不跳过索引中的列。匹配最左前缀法则，走索引：

在这里插入图片描述

违反最左前缀法则，索引失效：我们跳过name，直接查status和address,发现索引失效

在这里插入图片描述

如果符合最左法则，但是出现跳跃某一列，只有最左列索引生效：可以看到只有name生效
在这里插入图片描述

范围查询，右边的列不能使用索引

在这里插入图片描述

根据前面的两个字段 name ， status 查询是走索引的，但是最后一个条件address 没有用到索引。

在索引列上进行运算操作，索引将失效
字符串不加单引号，造成索引失效

由于，在查询时没有对字符串加单引号， MySQL的查询优化器，会自动的进行类型转换，造成索引失效。

以%开头的Like模糊查询，索引失效。如果仅仅是尾部模糊匹配，索引不会失效。如果是头部模糊匹配，索引失效

在这里插入图片描述

小总结

什么情况下索引会失效 ?

①违反最左前缀法则

②范围查询，右边的列不能使用索引

③在索引列上进行运算操作，索引将失效

④字符串不加单引号，造成索引失效。(类型转换)

⑤以%开头的Like模糊查询，索引失效

面试快速答法

在这里插入图片描述

4、SQL优化

谈一谈你对sql的优化的经验

1、表的设计优化

表的设计优化（参考阿里开发手册《嵩山版》)

①比如设置合适的数值（tinyint int bigint），要根据实际情况选择

②比如设置合适的字符串类型（char和varchar）char定长效率高，varchar可变长度，效率稍低

2、索引优化

3、SQL语句优化

①SELECT语句务必指明字段名称（避免直接使用select * ）

②SQL语句要避免索引失效的写法

③尽量用union all代替union union会多一次过滤，效率低

④避免在where子句中对字段进行表达式操作

⑤Join优化能用innerjoin 就不用left join right join，如必须使用一定要以小表为驱动，内连接会对两个表进行优化，优先把小表放到外边，把大表放到里边。left join 或 right join，不会重新调整顺序。

join查询会导致大量数据进入数据库的内存，而数据库的内存是有限的，一次规模很大的join查询，可能会导致之前的热数据被淘汰，内存命中率就会降低，此时必然会影响线上的业务。

4、主从复制、读写分离

如果数据库的使用场景读的操作比较多的时候，为了避免写的操作所造成的性能影响可以采用读写分离的架构。

读写分离解决的是，数据库的写入，影响了查询的效率。

5、分库分表

小总结

谈一谈你对sql的优化的经验

表的设计优化，数据类型的选择
索引优化，索引创建原则
sql语句优化，避免索引失效，避免使用select * ….
主从复制、读写分离，不让数据的写入，影响读操作
分库分表

面试快速答法

在这里插入图片描述

5、事务

事务的特性是什么？可以详细说一下吗？

事务是一组操作的集合，它是一个不可分割的工作单位，事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求

即这些操作要么同时成功，要么同时失败。ACID原则

比如现在有个转账的业务，张三给李四转账，刚开始每个人都有2000块钱，转完帐之后张三还剩1000，而李四有3000

在这里插入图片描述

ACID是什么？可以详细说一下吗？

原子性（Atomicity）：事务是不可分割的最小操作单元，要么全部成功，要么全部失败。
一致性（Consistency）：事务完成时，必须使所有的数据都保持一致状态。
隔离性（Isolation）：数据库系统提供的隔离机制，保证事务在不受外部并发操作影响的独立环境下运行。
持久性（Durability）：事务一旦提交或回滚，它对数据库中的数据的改变就是永久的。

小总结

原子性( Atomicity )
一致性( Consistency )
隔离性( Isolation )
持久性( Durability )

结合转账案例进行说明

面试快速答法

在这里插入图片描述

6、并发事务

并发事务带来哪些问题？怎么解决这些问题呢？MySQL的默认隔离级别是？

并发事务问题：脏读、不可重复读、幻读
隔离级别：读未提交、读已提交、可重复读、串行化

并发事务问题

问题	描述
脏读	一个事务读到另外一个事务还没有提交的数据。
不可重复读	一个事务先后读取同一条记录，但两次读取的数据不同，称之为不可重复读。
幻读	事务T1在范围查询或范围修改的过程中，另一个事务T2插入了一条属于事务T1范围内的数据并且提交了，那T1查询发现多出来了一条数据或者发现这条数据没有被修改，像是产生了幻觉。

在这里插入图片描述

怎么解决并发事务的问题呢？

解决方案：对事务进行隔离

隔离级别	脏读	不可重复读	幻读
Read uncommitted 未提交读	√	√	√
Read committed 读已提交	×	√	√
Repeatable Read(默认) 可重复读	×	×	√
Serializable 串行化	×	×	×

注意：事务隔离级别越高，数据越安全，但是性能越低。

小总结

并发事务带来哪些问题？怎么解决这些问题呢？MySQL的默认隔离级别是？

并发事务的问题：

①脏读：一个事务读到另外一个事务还没有提交的数据。

②不可重复读：一个事务先后读取同一条记录，但两次读取的数据不同

③幻读：事务T1在范围查询或范围修改的过程中，另一个事务T2插入了一条属于事务T1范围内的数据并且提交了，那T1查询发现多出来了一条数据或者发现这条数据没有被修改，像是产生了幻觉。。

隔离级别：

①READ UNCOMMITTED 未提交读

②READ COMMITTED 读已提交

③REPEATABLE READ 可重复读

④SERIALIZABLE 串行化

面试快速答法

在这里插入图片描述

7、undo log和redo log的区别

先来了解两个概念

缓冲池（buffer pool）:主内存中的一个区域，里面可以缓存磁盘上经常操作的真实数据，在执行增删改查操作时，先操作缓冲池中的数据（若缓冲池没有数据，则从磁盘加载并缓存），以一定频率刷新到磁盘，从而减少磁盘IO，加快处理速度
数据页（page）:是InnoDB 存储引擎磁盘管理的最小单元，每个页的大小默认为 16KB。页中存储的是行数据

在这里插入图片描述

redo log

重做日志，记录的是事务提交时数据页的物理修改，是用来实现事务的持久性。

该日志文件由两部分组成：重做日志缓冲（redo log buffer）以及重做日志文件（redo log file）,前者是在内存中，后者在磁盘中。

事务提交之后需要将数据持久化到磁盘，但是随机磁盘I/O的效率很低，所以InnoDB设计了Buffer Pool缓冲区来优化，也就是数据发生变化的时候先更新内存缓冲区，在合适的时机再持久化到磁盘。在持久化的过程中，如果数据库宕机，就会导致数据丢失，所以引入了Redo_LOG日志，这个文件存储了数据被修改之后的值，当我们通过事务对数据进行变更的时候，除了修改内存缓冲区里面的数据，还要把本次修改的值追加到Redo_LOG日志里面。当提交事务的时候，直接把Redo_LOG刷到磁盘上进行持久化，一旦数据库宕机，MySql重启后可以直接将Redo_LOG里面保存到重写日志读取出来，再执行一遍，从而保证持久性。

在这里插入图片描述

undo log

回滚日志，用于记录数据被修改前的信息 , 作用包含两个 : 提供回滚 和 MVCC(多版本并发控制) 。undo log和redo log记录物理日志不一样，它是逻辑日志。

可以认为当delete一条记录时，undo log中会记录一条对应的insert记录，反之亦然，
当update一条记录时，它记录一条对应相反的update记录。当执行rollback时，就可以从undo log中的逻辑记录读取到相应的内容并进行回滚。

在事务执行的过程中，把修改之前的数据快照保存到Undo_Log里面，一旦出现错误，就直接从该日志文件里面读取数据进行反向操作；

undo log可以实现事务的一致性和原子性

小总结

undo log和redo log的区别

redo log: 记录的是数据页的物理变化，服务宕机可用来同步数据
undo log ：记录的是逻辑日志，当事务回滚时，通过逆操作恢复原来的数据
redo log保证了事务的持久性，undo log保证了事务的原子性和一致性

面试快速答法

在这里插入图片描述

8、MVCC

事务中的隔离性是如何保证的呢？

锁：排他锁（如一个事务获取了一个数据行的排他锁，其他事务就不能再获取该行的其他锁）
mvcc : 多版本并发控制

你解释一下MVCC?

全称 Multi-Version Concurrency Control，多版本并发控制。指维护一个数据的多个版本，使得读写操作没有冲突

MVCC的具体实现，主要依赖于数据库记录中的 隐式字段、undo log日志、readView。

在这里插入图片描述

记录中的隐藏字段

在这里插入图片描述

undo log

回滚日志，在insert、update、delete的时候产生的便于数据回滚的日志。

当insert的时候，产生的undo log日志只在回滚时需要，在事务提交后，可被立即删除。

而update、delete的时候，产生的undo log日志不仅在回滚时需要，mvcc版本访问也需要，不会立即被删除。
undo log版本链

在这里插入图片描述

不同事务或相同事务对同一条记录进行修改，会导致该记录的undolog生成一条记录版本链表，链表的头部是最新的旧记录，链表尾部是最早的旧记录

readview

ReadView（读视图）是 快照读 SQL执行时MVCC提取数据的依据，记录并维护系统当前活跃的事务（未提交的）id。

那什么是快照读呢？

先来了解两个概念

当前读：读取的是记录的最新版本，读取时还要保证其他并发事务不能修改当前记录，会对读取的记录进行加锁。对于我们日常的操作，如：select … lock in share mode(共享锁)，select … for update、update、insert、delete(排他锁)都是一种当前读。

快照读：简单的select（不加锁）就是快照读，快照读，读取的是记录数据的可见版本，有可能是历史数据，不加锁，是非阻塞读。

Read Committed：每次select，都生成一个快照读。
Repeatable Read：开启事务后第一个select语句才是快照读的地方。

ReadView中包含了四个核心字段：

字段	含义
m_ids	当前活跃的事务ID集合
min_trx_id	最小活跃事务ID
max_trx_id	预分配事务ID，当前最大事务ID+1（因为事务ID是自增的）
creator_trx_id	ReadView创建者的事务ID

在这里插入图片描述

不同的隔离级别，生成ReadView的时机不同：

READ COMMITTED ：在事务中每一次执行快照读时生成ReadView。
REPEATABLE READ：仅在事务中第一次执行快照读时生成ReadView，后续复用该ReadView。

RC隔离级别下，在事务中每一次执行快照读时生成ReadView。

在这里插入图片描述

RR隔离级别下，仅在事务中第一次执行快照读时生成ReadView，后续复用该ReadView。

在这里插入图片描述

小总结

事务中的隔离性是如何保证的呢？(你解释一下MVCC)

MySQL中的多版本并发控制。指维护一个数据的多个版本，使得读写操作没有冲突

隐藏字段：

①trx_id(事务id)，记录每一次操作的事务id，是自增的

②roll_pointer(回滚指针)，指向上一个版本的事务版本记录地址

undo log：

①回滚日志，存储老版本数据

②版本链：多个事务并行操作某一行记录，记录不同事务修改数据的版本，通过roll_pointer指针形成一个链表

readView解决的是一个事务查询选择版本的问题
- 根据readView的匹配规则和当前的一些事务id判断该访问那个版本的数据
- 不同的隔离级别快照读是不一样的，最终的访问的结果不一样
RC ：每一次执行快照读时生成ReadView
RR：仅在事务中第一次执行快照读时生成ReadView，后续复用