第二十二章：逻辑架构

最新推荐文章于 2024-06-11 23:09:19 发布

小王超会敲代码

最新推荐文章于 2024-06-11 23:09:19 发布

阅读量409

点赞数

分类专栏： MySQL 文章标签：架构

本文链接：https://blog.csdn.net/wcy_0522/article/details/131671707

版权

MySQL 专栏收录该内容

37 篇文章 0 订阅

订阅专栏

第二十二章：逻辑架构

22.1：逻辑架构剖析

服务器处理客户端请求

MySQL是典型的C/S架构，即Client/Server架构，服务端程序使用的mysqld。不论客户端进程和服务器进程是采用哪种方式进行通信，最后实现的效果都是：客户端进程向服务器进程发送一段文本(SQL语句)，服务器进程处理后再向客户端进程发送一段文本(处理结果)。

下面具体展开看一下：
Connectors

是不同语言中SQL的交互。MySQL首先是一个网络程序，在TCP之上定义了自己的应用层协议。所以要使用MySQL，我们可以编写代码，跟MySQL Server建立TCP连接，之后按照其定义好的协议进行交互。或者比较方便的办法是调用SDK，但通过SDK来访问MySQL，本质上还是在TCP连接上通过MySQL协议跟MySQL进行交互。
第一层：连接层

系统(客户端)访问MySQL服务器前，做的第一件是就是建立TCP连接。经过三次握手建立连接成功后，MySQL服务器对TCP传输过来的账号密码做身份认证、权限获取。
- 用户名或密码不对，会受到一个Access denied for user错误，客户端程序结束执行。
- 用户名密码认证通过，会从权限表查出账号拥有的权限与连接关联，之后的权限判断逻辑，都将依赖于此时读到的权限。
多个系统都可以和MySQL服务器建立连接，每个系统建立的连接肯定不止一个。所以，为了解决TCP无限创建与TCP频繁创建销毁带来的资源耗尽、性能下降问题。MySQL服务器里有专门的TCP连接池限制连接数，采用长连接模式复用TCP连接。
第二层：服务层

主要完成大多数的核心服务功能，【sql接口、缓存的查询】在该层，服务器会解析查询并创建相应的内部解析树，并对其完成相应的优化。如果是SELECT语句，服务器还会查询内部缓存。
- SQL Interface：SQL接口
  1. 接收用户的SQL命令，并且返回用户需要查询的结果。比如SELECT ... FROM就是调用SQL Interface。
  2. MySQL支持DML(数据操作语言)、DDL(数据定义语言)、存储过程、视图、触发器、自定义函数等多种SQL语言接口。
- Parser：解析器
  1. 在解析器中对SQL语句进行语法分析、语义分析。将SQL语句分解成数据结构，并将这个结构传递到后续步骤，以后SQL语句的传递和处理就是基于这个结构的。
  2. 在SQL命令传递到解析器的时候会被解析器验证和解析，并为其创建语法树，并根据数据字典丰富查询语法树，会验证该客户端是否具有执行查询的权限。
- Optimizer：查询优化器
  1. SQL语句在语法解析之后、查询之前会使用查询优化器确定SQL语句的执行路径，生成一个执行计划。
  2. 这个执行计划表名应该使用哪些索引进行查询(全表检索还是使用索引检索)，表之间的连接顺序如何，最后会按照执行计划中的步骤调用存储引擎提供的方法来真正的执行查询，并将查询结果返回给用户。
  3. 它使用选取-投影-连接策略进行查询
```
# 这个SELECT查询显示根据WHERE语句进行选取，而不是将表全部查询出来以后再进行gender过滤。
# 这个SELECT查询先根据id和name进行属性投影，而不是将属性全部取出来以后再进行过滤，
# 将这个两个查询条件连接起来生成最终查询结果
SELECT id, name FROM student WHERE gender = '女';
```
- Caches & Buffers：查询缓存组件
  1. MySQL内部维持着一些Cache和Buffer，比如Query Cache用来缓存一条SELECT语句的执行结果，如果能够在其中找到对应的查询结果，那么就不必再进行查询解析、优化和执行的整个过程了，直接将结构反馈给客户端。
  2. 这个缓存机制是由一些列小缓存组成的。比如表缓存，记录缓存，key缓存，权限缓存等。
  3. 这个查询缓存可以在不同客户端之间共享。
  4. 从MySQL 5.7.20开始，不推荐使用查询缓存，并在MySQL 8.0中删除。
第三层：引擎层
```
# 查看mysql的默认支持存储引擎
SHOW engines;
```
他的架构可以在多种不同场景中应用并发挥良好作用，主要体现在存储引擎的架构上，插件式的存储引擎架构将查询处理和其他的系统任务以及数据的存储提取相分离。这种架构可以根据业务的需求和实际需要选择合适的存储引擎。同时开源的MySQL还允许开发人员设置自己的存储引擎。

插件式存储引擎层(Storage Engines)，真正的负责了MySQL中数据的存储和提取，对物理服务器级别维护的底层数据执行操作，服务器通过API与存储引擎进行通信。不同的存储引擎具有的功能不同，这样我们可以根据自己的实际需要进行选取。
存储层

所有的数据、数据库、表的定义，表的每一行的内容，索引，都是存在文件系统上，以文件的方式存在的，并完成与存储引擎的交互。当前有些存储引擎【InnoDB】也支持不使用文件系统直接管理裸设备，但现代文件系统的实现使得这样做没有必要了。在文件系统之下，可以使用本地磁盘，也可以使用DAS、NAS、SAN等各种存出系统。

22.2：SQL执行流程

MySQL中的SQL执行流程
- 查询缓存
  
  Server如果在查询缓存中发现了这条SQL语句，就会直接将结果返回客户端，如果没有，就进入解析器阶段。需要说明的是，因为查询缓存往往效率不高，所以在MySQL 8.0之后就抛弃了这个功能。
- 解析器：在解析器中对SQL语句进行语法分析、语义分析。
  
  如果没有命中查询缓存，就要开始真正执行语句了。首先，MySQL需要知道你要做什么，因此需要对SQL语句做解析。
  
  分析器先做词法分析。你输入的是由多个字符串和空格组成的一条SQL语句，MySQL需要识别出里面的字符串分别是什么，代表什么。
  
  接着，要做语法分析。根据词法分析的结构，语法分析器会根据语法规则，判断你输入的这个SQL语句是否满足MySQL语法。如果你的语句不对，就会收到You have an error in your SQL syntax的错误提醒。如果SQL语句正确，则会生成一个语法树。
  
  SQL词法分析的过程步骤：
- 优化器
  
  在优化器中会确定SQL语句的执行路径，比如是根据全表检索，还是根据索引检索等。经过了解析器，MySQL就知道你要做什么了。在开始执行之前，还要先经过优化器的处理。一条查询可以有很多种执行方式，最后都返回相同的结果。优化器的作用就是找到这其中最好的执行计划。
  
  在查询优化器中，可以分为逻辑查询优化阶段和物理查询优化阶段。
  - 逻辑查询优化就是通过改变SQL语句的内容来使得SQL查询更高效，同时为物理查询优化提供更多的时候执行计划。通常采用的方式是对SQL语句进行等价变换，对查询进行重写，而查询重写的数学基础就是关系代数。对条件表达式进行等价谓词重写、条件简化，对视图进行重写，对子查询进行优化，对连接语义进行了外连接消除、嵌套连接消除等。
  - 物理查询优化是基于关系代数的查询重写，而关系大财叔的每一步都对应着物理计算，这些物理计算往往存在多种算法，因此需要计算各种物理路径的代价，从中选择代价最小的作为执行计划。在这个阶段里，对于表单和多表连接的操作，需要高效地使用索引，提升查询效率。
- 执行器
  
  截止到现在，还没有真正去读写真实的表，仅仅只是产出一个执行计划。于是就进入了执行器阶段。在执行之前需要判断该用户是否具备权限。如果没有，就会返回权限错误。如果具备权限，就执行SQL查询并返回结果。在MySQL8.0以下的版本，如果设置了查询缓存，这时会将查询结果进行缓存。
  
  SQL语句在MySQL中的流程是：SQL语句——查询缓存——解析器——优化器——执行器。

MySQL 8.0中SQL执行原理

既然一条SQL语句会经历不同的模块，那我们就来看下，在不同的模块中，SQL执行所使用的资源(时间)是怎样的。如何在MySQL中对一条SQL语句的执行时间进行分析。

确认profiling是否开启

# 查看是否开启计划
SELECT @@profiling;  # 0代表关闭， 1代表开启
SHOW VARIABLES LIKE 'profiling';  # 默认是OFF(关闭状态)

# 打开profiling
SET profiling=1;

多次执行相同的SQL查询

USE atguigudb;
SHOW TABLES;
SELECT * FROM employees;
SELECT * FROM employees;

执行profiles

# 查看当前会话产生的所有profiles
SHOW profile;

# 查询指定的Query ID
SHOW profile for query 7;

# 查询结果更丰富
SHOW profile cpu, block, io for query 6;

在这里插入图片描述

MySQL5.7中SQL执行原理

上述操作在MySQL 5.7中测试，发现前后两次相同的sql语句，执行查询过程仍然是相同的。这里我们需要显示开启查询缓存模式。
- 配置文件中开启查询缓存
```
# 在/etc/my.cnf中新增一行
query_cache_type=1
```
- 重启mysql服务
```
systemctl restart mysqld
```
- 开启查询执行计划
```
SET profiling=1;
```
- 执行语句两次
```
SELECT * FROM locations;
SELECT * FROM locations;
```
- 查看profiles
- 查看profile
  
  显示执行计划，查看程序的执行步骤：
- 注意1
```
# SQL必须是一致的，否则，不能命中缓存
SELECT * FROM employees;
SELECT * FROM     employees;
```
- 注意2：同样的开启缓存配置信息如果在MySQL8中添加。重启服务时会报错。

22.3：数据缓冲池

InnoDB存储引擎是以页为单位来管理存储空间的，我们进行的增删改查操作其实本质上都是在访问页面(包括读页面、写页面、创建新页面等操作)。而磁盘I/O需要消耗的时间很多，而在内存中进行操作，效率则会高很多，为了能让数据表或者索引中的数据随时被我们所用，DBMS会申请占用内存来作为数据缓冲池，在真正访问页面之前，需要把磁盘上的页缓存到内存中的Buffer Pool之后才可以访问。

这样做的好处是可以让磁盘活动最小化，从而减少与磁盘直接进行I/O的时间。要知道，这种策略对提升SQL语句的查询性能来说至关重要。如果索引的数据在缓冲池里，那么访问的成本就会降低很多。

缓冲池VS查询缓存
- 缓冲池
  
  在InnoDB存储引擎中有一部分数据会放到内存中，缓冲池则占了这部分内存的大部分，它用来存储各种数据的缓存。
  1. 缓存池的重要性
    
    对于使用InnoDB作为存储引擎的表来说，不管是用于存储用户数据的索引(包括聚簇索引和二级索引)，还是各种系统数据，都是以页的形式存放在表空间中的，而所谓的表空间只不过是InnoDB对文件系统上一个或几个实际文件的抽象，也就是说我们的数据说到底还是存储在磁盘上的。磁盘的速度慢的跟乌龟一样，这里缓冲池可以帮助我们消除CPU和磁盘之间的鸿沟。
    
    所以，InnoDB存储引擎在处理客户端的请求时，当需要访问某个页的数据时，就会把完整的页的数据全部加载到内存中，也就是说即使我们只需要访问一个页的一条记录，那也需要先把整个页的数据加载到内存中。将整个页加载内存中后就可以进行读写访问了，在进行读写访问之后并不着急把该页对应的内存空间释放掉，而是将其缓存起来，这样将来有请求再次访问该页面时，就可以**省去磁盘IO**的开销了。
  2. 缓存原则
    
    位置*频次这个原则，可以帮我们对I/O访问效率进行优化。首先，位置决定效率，提供缓冲池就是为了在内存中可以直接访问数据。其次频次决定优先级顺序。因为缓冲池的大小是有限的，会优先对使用频次高的热数据进行加载。
  3. 缓冲池的预读特性
    
    缓冲池的作用就是提升I/O效率，而我们进行读取数据的时候存在一个"局部性原理"，也就是说我们使用了一些数据，大概率还会使用它周围的一些数据，因此采用预读的机制提前加载，可以减少未来可能的磁盘I/O操作。
- 查询缓存
  
  查询缓存是提前把查询结果缓存起来，这样下次不需要执行就可以直接拿到结果。需要说明的是，在MySQL中的查询缓存，不是缓存查询计划，而是查询对应的结果。因为命中条件苛刻，而且只要数据表发生变化，查询缓存就会失效，因此命中率低。
  
  缓冲池服务于数据库整体的I/O操作，它们的共同点都是通过缓存的机制来提升效率。
缓冲池如何读取数据

缓冲池管理器会尽量将经常使用的数据保存起来，在数据库进行页面读操作的时候，首先会判断该页面是否在缓冲池中，如果存在就直接读取，如果不存在，就会通过内存或磁盘将页面放到缓冲池中在进行读取。

实际上，当我们对数据库中的记录进行修改的时候，首先会修改缓冲池中页面里的记录信息，然后数据库会以一定的频率刷新到磁盘上。注意并不是每次发生更新操作，都会立刻进行磁盘回写。缓冲池会采用一种叫做**checkpoint的机制**将数据回写到磁盘上，这样做的好处就是提升了数据库的整体性能。

如果缓冲池不够用时，需要释放掉一些不常用的页，此时就可以强行采用checkpoint的方式，将不常用的脏页【缓冲池被修改过的页，与磁盘上的数据页不一致】回写到磁盘上，然后在从缓冲池中将这些页释放掉。
查看、设置缓冲池的大小

如果你使用的是MySQL MyISAM存储引擎，它只缓存索引，不缓存数据，对应的键缓存参数为key_buffer_size。

如果你使用的是InnoDB存储引擎，可以通过查看innodb_buffer_pool_size变量来查看缓冲池的大小。
```
# 查看缓冲池大小
SHOW VARIABLES LIKE 'innodb_buffer_pool_size';

# 修改缓冲池大小
SET GLOBAL innodb_buffer_pool_size = 数值; # 单位是B
# 在my.cnf中修改
[server]
innodb_buffer_pool_size=数值
```
多个Buffer cache实例

Buffer Pool本质是InnoDB向操作系统申请的一块连续的内存空间，在多线程环境下，访问Buffer Pool中的数据都需要加锁处理。在Buffer Pool特别大而且多线程并发访问特别搞的情况下，单一的Buffer Pool可能会影响请求的处理速度。所以在Buffer Pool特别大的时候，我们可以把他们拆分成若干个小的Buffer Pool，每个Buffer Pool都称为一个实例，它们都是独立的，独立的去申请内存空间，独立的管理各种链表。所以在多线程并发访问时并不会相互影响，从而提高并发处理能力。
```
# 在my.cnf配置文件中修改Buffer Pool的个数
[server]
innodb_buffer_pool_instances=2

# 查看缓冲池的个数
SHOW VARIABLES LIKE 'innodb_buffer_pool_instances';

# 若果缓冲池的总空间小于1G,Buffer Pool设置多个实例是无效的, 只有缓冲池的总空间大于1G时，设置多个Buffer Pool才能生效
# 每个Buffer Pool占用的空间：总空间/Buffer Pool的个数
```