本篇覆盖内容:存储引擎、索引、锁、SQL优化、视图、存储过程、触发器、InnoDB、Mysql管理
进阶篇
存储引擎
Mysql体系结构
- 连接层:最上层是一些客户端和链接服务,主要完成一些类似于连接处理、授权认证及相关的安全方案,服务器也会为安全接入的每个用户端验证它所具有的操作权限
- 服务层:第二层架构主要完成大多数的核心服务功能,如SQL接口,并完成缓存的查询,SQL的分析和优化,部分内置函数的执行。所有跨存储引擎的功能也是在这一层实现,如过程,函数等
- 引擎层:存储引擎真正的负责了Mysql中数据的存储和提取,服务器通过API和存储引擎进行通信。不同的存储引擎具有不同的功能,这样我们可以根据自己的需要,来选取合适的存储引擎
- 存储层:主要是将数据存储在文件系统上,并完成与存储引擎的交互
存储引擎简介
存储引擎就是存储数据、建立索引、更新/查询数据等技术的实现方式,存储引擎是基于表的,而不是基于库的,所以存储引擎也可被称为表类型
语法
- 创建表时,指定存储引擎
CREATE TABLE 表名(
字段 字段类型 [COMMENT 注释],
......
)ENGINE = INNODB [COMMENT 表注释];
- 查看当前数据库支持的存储引擎
SHOW ENGINES;
存储引擎特点
InnoDB
-
介绍
InnoDB是一种兼顾高可靠性和高性能的通用存储引擎,在Mysql5.5之后,InnoDB是默认的Mysql存储引擎
-
特点
- DML操作遵循ACID模型,支持事务
- 行级锁,提高并发访问性能
- 支持外键FOREIGN KEY约束,保证数据的完整性和正确性
-
文件
xxx.idb:xxx代表的是表名,InnoDB引擎的每张表都会对应这样一个表空间文件,存储该表的表结构(frm、sdi)、数据和索引。
参数:innodb_file_per_table
InnoDB逻辑存储结构
MyISAM
-
介绍
MyISAM是mysql早期的默认存储引擎
-
特点
- 不支持事务,外键
- 支持表锁,不支持行锁
- 访问速度快
-
文件
xxx.MYD:存放数据信息
xxx.MYI:存放索引信息
xxx.sdi:存放表结构信息
Memory
-
介绍
memory引擎的表数据是存储在内存中的,由于受到硬件问题、或者断点问题的影响,只能将这些表作为临时表或缓存使用
-
特点
- 内存存放,访问快
- hash索引(默认)
-
文件
xxx.sdi:存储表结构信息
存储引擎特点对比
特点 | InnoDB | MyISAM | Memory |
---|---|---|---|
存储限制 | 64TB | 有 | 有 |
事务安全 | 支持 | - | - |
锁机制 | 行锁 | 表锁 | 表锁 |
B+tree索引 | 支持 | 支持 | 支持 |
Hash索引 | - | - | 支持 |
全文索引 | 支持(5.6版之后) | 支持 | - |
空间使用 | 高 | 低 | N/A |
内存使用 | 高 | 低 | 中等 |
批量出入速度 | 低 | 高 | 高 |
支持外键 | 支持 | - | - |
存储引擎选择
- InnoDB:适用于应用对事务有比较高要求,在并发条件下要求数据的一致性、数据操作除了插入和查询之外,还包含很多的更新、删除操作
- MyISAM:适用于应用是以读操作和插入操作为主,只有很少的更新和删除,并对事务完整性、并发性要求不高
- Memory:将所有数据保存在内存中,访问数据快,通常用于临时表及缓存。Memory的缺陷就是对表的大小有限制,太大的表无法缓存在内存中,而且无法保障数据的安全性
索引
索引概述
-
介绍
索引(index)是帮助高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据就是索引
-
优缺点
优势 | 劣势 |
---|---|
提高数据检索效率,降低数据库IO成本 | 索引列占用空间 |
通过索引对数据列进行排序,降低数据排序的成本,降低CPU的消耗 | 降低了更新表的速度,当对表进行增删改时需同步维护索引 |
索引结构
Mysql的索引是在存储引擎层实现的,不同的存储引擎有不同的结构,具体如下:
索引结构 | 描述 | InnoDB | MyISAM | Memory |
---|---|---|---|---|
B+Tree | 最常见的索引类型,大部分引擎都支持B+数索引 | 支持 | 支持 | 支持 |
Hash | 底层数据结构是用哈希表实现的,只有精确匹配索引列的查询才有效,不支持范围查询 | 不支持 | 不支持 | 支持 |
R-tree(空间索引) | 空间索引是MyISAM引擎的一个特殊索引类型,主要用于地理空间数据类型 | 不支持 | 支持 | 不支持 |
Full-text(全文索引) | 一种通过建立倒排序索引,快速匹配文档的方式,类似于Lucene,Solr,ES | 5.6版本后支持 | 支持 | 不支持 |
如果没有特别指明,索引一般指B+数结构索引
索引结构
-
二叉树
缺点:顺序插入时,会形成链表,查询性能大大降低。大数据量情况下,层级较深,检索速度慢
-
红黑树
优点:解决了二叉树顺序插入问题
缺点:大数据量情况下,层级较深,检索速度慢
-
B-Tree(多路平衡查找树)
以一颗最大度数(max-degree)为5(5阶)的b-tree为例(每个节点最多存储4个key,5个指针),如下图:
树的度数指一个节点的子节点个数
动态演示数据结构:https://www.cs.usfca.edu/~galles/visualization/Algorithms.html
-
B+Tree
以一颗最大度数(max-degree)为4(45阶)的b-tree为例:
相对于B-Tree区别
- 所有的数据都会出现在叶子节点
- 叶子节点形成一个单向链表
Mysql索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上,增加了一个指向相邻叶子节点的链表(双向链表)指针,就形成了带有顺序指针的B+Tree,提高区间访问的性能
-
Hash
哈希索引就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在hash表中
hash冲突:如果两个或多个键值映射到一个相同的槽位上,可以通过链表来解决
特点
- Hash索引只能用于对等比较(=,in),不支持范围查询(between,>,<,…)
- 无法利用索引完成排序操作
- 查询效率高,通常只需要一次检索就可以了,效率通常要高于B+tree索引
- Memory引擎支持
为什么InnoDB存储引擎选择使用B+Tree索引结构?
- 相对于二叉树,层级更少,搜索效率高
- 对于B-Tree,无论是叶子节点还是非叶子节点,都会保存数据,这样导致一页中存储的键值减少,指针跟着减少,要同样保存大量数据,只能增加树的高度,导致性能降低
- 相对Hash索引,B+Tree支持范围匹配及排序操作
索引分类
分类 | 含义 | 特点 | 关键字 |
---|---|---|---|
主键索引 | 针对于表中主键创建的索引 | 默认自动创建,只能一个 | PRIMARY |
唯一索引 | 避免同一个表中某数据列中的值重复 | 可以有多个 | UNIQUE |
常规索引 | 快速定位特定数据 | 可以有多个 | |
全文索引 | 查找的是文本中的关键词,而不是比较索引的值 | 可以有多个 | FULLTEXT |
在InnoDB存储引擎中,根据索引的存储形式,可分为以下两种:
分类 | 含义 | 特点 |
---|---|---|
聚集索引 | 将数据存储与索引放到一块,索引结构的叶子结点保存行数据 | 必须有且只有一个 |
二级索引 | 将数据与索引分开存储,索引结构的叶子结点关联的是对应的主键 | 可以存在多个 |
聚集索引选取规则:
- 如果存在主键,主键索引就是聚集索引
- 如果不存在主键,将使用第一个唯一(UNIQUE)索引座位聚集索引
- 如果表没有主键,或者没有合适的唯一索引,则InnoDB会自动生成一个rowid作为隐藏的聚集索引
回表查询
select * from user where name = ‘Arrn’;
首先通过二级索引查询到name为Arrn这行数据的主键,再根据主键在聚集索引中查询出整行数据
思考:InnoDB主键索引的B+Tree高度为多高呢
索引语法
-
创建索引
CREATE [UNIQUE | FULLTEXT] INDEX index_name ON table_name (index_col_name);
-
查看索引
SHOW INDEX FROM table_name;
-
删除索引
DROP INDEX index_name ON table_name;
SQL性能分析
SQL执行频率
Mysql客户端连接成功后,通过show [session|global] status命令可以提供服务状态信息。通过如下指令,可以查看当前数据库的INSERT、UPDATE、DELETE、SELECT的访问频次
语法
SHOW GLOBAL STATUS LIKE 'Com_______';
可根据执行频率判断主要操作是查询还是修改或者其他操作,进而对高频次操作进行优化
慢查询日志
慢查询日志记录了所有执行时间超过指定参数(long_query_time,单位:秒,10S)的所有SQL语句的日志。
Mysql的慢查询日志默认没有开启,需要在Mysql的配置文件(/etc/my.cnf)中配置如下信息:
# 开启Mysql慢查询日志开关
slow_query_log=1
# 设置慢查询日志的时间,超过该时间则会被记录到慢查询日志中
long_query_time=10
查看是否开启慢查询日志
SHOW VARIABLES LIKE 'slow_query_log';
profile详情
show profiles能够在做SQL优化时帮助我们了解时间都耗费到哪里去了,通过have_profiling参数,能够看到当前Mysql是否支持profile操作:
SELECT @@have_profiling;
默认profiling是关闭的,通过set语句在session/global级别开启profiling:
SET profiling = 1;
查看指令:
# 查看每一条SQL的耗时基本情况
show profiles;
# 查看指定query_id的SQL语句各个阶段的耗时情况
show profile for query query_id;
# 查看指定query_id的SQL语句CPU的使用情况
show profile cpu for query query_id;
explain执行计划
explain或者desc命令获取mysql如何执行select语句的信息,包括在select语句执行过程中表如何连接和连接的顺序
语法
# 直接在select前面加explain或desc
EXPLAIN SELECT 字段列表 FROM 表名 WHERE 条件;
执行结果如下图:
EXPLAIN执行计划各字段的含义:
-
id
select查询的序列号,表示查询中执行select子句或者是操作表的顺序(id相同,执行顺序从上到下;id不同,值越大,越先执行)
-
select_type
表示select的类型,常见的取值有simple(简单表,即不使用表连接或者子查询)、primary(主查询,即外层的查询)、union(union中的第二个或者后面的查询语句)、subquery(select/where之后包含的子查询)等
-
type
表示连接类型,性能由好到差的连接类型为NULL、system、const、eq_ref、ref、range、index、all
-
possible_key
显示可能应用在这张表上的索引,一个或多个
-
key
实际使用的索引,如果为NULL,表示没有使用索引
-
key_len
表示索引中使用的字节数,该值为索引字段最大可能长度,并非实际使用长度,在不损失精确性的前提下,长度越短越好
-
rows
Mysql认为必须要执行查询的行数,在InnoDB引擎中,是一个估计值,可能并不总是准确的
-
filtered
表示返回结果的行数占需读取行数的百分比,filtered的值越大越好
优化重点关注字段
type、possible_key、key、key_len
索引使用
最左前缀法则
如果索引了多列(联合索引),要遵循最左前缀法则,指查询从索引的最左列开始,并且不跳过索引中的列,如果跳过某一列,索引将部分失效(后面的字段索引失效)
另:多列索引各字段在where后面编写顺序无关,只需关注是否存在即可
-
范围查询
联合索引中,出现范围查询(>,<等),范围查询右侧的列索引失效
另:
- 类似>=这种会走索引
索引失效情况
-
索引列运算
不要在索引列上进行运算操作,索引将失效
-
字符串不加单引号
字符串类型字段使用时,不加引号,索引将失效
-
模糊查询
如果仅仅是尾部模糊匹配,索引不会失效,如果是头部模糊匹配,索引失效
xxx%使用索引,%xxx不使用索引
-
or连接的条件
用or分割开的条件,如果or前的条件中的列有索引,而后面的列中没有索引,那么涉及的索引都不会被用到,只有两侧都用到索引,才能成功生效
-
数据分布影响
如果mysql评估使用索引比全表还慢,则不使用索引,当查询条件覆盖的数据占全表的多数,则走全表扫描
SQL提示
SQL提示是优化数据库的一个重要手段,简单来说就是在SQL语句中加入一些人为的提示来达到优化操作的目的
-
user index建议使用索引,是否使用还需看mysql优化机制
SELECT * FROM 表名 USER INDEX(索引名) where 条件;
-
ignore index忽略索引
SELECT * FROM 表名 IGNORE INDEX(索引名) where 条件;
-
force index强制使用索引
SELECT * FROM 表名 FORCE INDEX(索引名) where 条件;
覆盖索引
尽量使用覆盖索引(查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到),减少select *;
注意
执行计划Extra字段含义
- using index condition: 查找使用了索引,但是需要回表查询数据
- null:回表查询
- using where;using index:查找使用了索引,需要的数据在索引列中能找到,所以不需要回表查询数据
前缀索引
当字段类型为字符串(varchar,text等)时,有时候需要索引很长的字符串,这会让索引变得很大,查询时,浪费大量的磁盘IO,影响查询效率。此时可以只将字符串的一部分前缀,建立索引,这样可以大大节约索引空间,从而提高索引效率
语法
# 提取字符串前n个字符建立索引
create index idx_xxx on table_name(column(n))
-
前缀长度
可以根据索引的选择性来决定,而选择性是指不重复的索引值(基数)和数据表的记录总数的比值,索引选择性越高则查询效率越高,唯一索引的选择性是1,索引选择性最好,性能也是最好的
计算选择性:
select count(distinct xxx) / count(*) from table_name; select count(distinct substring(xxx,startIndex,length) / count(*) from table_name;
应用场景:长字符串、大文本
思考:前缀索引的执行流程
单列索引与联合索引
单列索引:一个索引只包含单个列
联合索引:一个索引包含多个列
在业务场景中,如果存在多个查询条件,考虑针对于查询字段建立索引时,建议建立联合索引,而非单列索引
场景:两个字段建立单列索引,以这两个字段为条件查询会使用哪个索引呢?
多条件联合查询时,mysql优化器会评估哪个字段的索引效率高,进而选择该索引进行本次查询。因此虽然建立了两个单列索引,实际在查询过程只用了一个,建议常见联合索引
思考:联合索引的执行流程
索引设计原则
- 针对数据量(一般100W为介入点)较大,且查询比较频繁的表建立索引,
- 针对于常作为查询条件(where),排序(order by),分组(group by)操作的字段建立索引
- 尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高
- 如果是字符串类型的字段,字段的长度较长,可以针对于字段的特点,建立前缀索引
- 尽量使用联合索引,减少单列索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间,避免回表,提高查询效率
- 要控制索引的数量,索引并不是多多益善,索引越多,维护索引结构的代价就越大,会影响增删改的效率
- 如果索引列不能存储null值,请在创建表时使用NOT NULL约束它。当优化器知道每列是否包含null值时,它可以更好地确定哪个索引最有效的用于查询
SQL优化
插入数据
insert优化
-
批量插入
# 批量插入 建议500-1000条,如果超过则再分批 insert into table_name values(xxx,xxx),(xxx,xxxx)...;
-
手动提交事务
多条insert执行完成再提交事务,避免多次提交事务开销
-
主键顺序插入
大批量插入数据
如果一次性需要插入大批量数据,使用insert语句插入性能较低,此时可以使用Mysql数据库提供的load指令进行插入,操作如下:
# 客户端连接服务器时,加上参数--local-infile
mysql --local-infile -u root -p xxxx
# 设置全局参数local_infile为1,开启从本地加载文件导入数据库开关
set global local-file=1;
# 执行load指令将准备好的数据,加载到表结构中
load data local_infile '/localpath' into table 'table_name' fields terminated by ',' lines terminated by '\n';
',‘指列分隔符,’\n’指行分隔符,本地文件格式需要和表结构对应即几行几列
主键优化
-
数据组织方式
在InnoDB存储引擎中,表数据都是根据主键顺序组织存放的,这种存储方式的表称为索引组织表
-
页分裂
页可以为空,也可以填充一半,也可以填充100%,每个页包含了2-N行数据(如果一行数据过大,会行溢出),根据主键排列
乱序插入时,会导致页分裂现象,增加开销,影响插入效率,如下图:
-
页合并
当删除一行记录时,实际上记录并没有被物理删除,只是记录被标记为删除并且它的空间变得允许被其他记录声明使用。
当页中删除的记录达到MERGE_THRESHOLD(默认为页的50%),InnoDB会开始寻找最靠近的页(前或后)看看是否可以将两个页合并以优化空间使用,磁盘碎片整理
过程如下图:
MERGE_THRESHOLD: 合并页的阈值,可以自己设置,在创建表或者创建索引时指定
主键设计原则
- 满足业务需求的情况下,尽量降低主键的长度
- 插入数据时,尽量选择顺序插入,选择使用auto_increment自增主键(避免页分裂)
- 尽量不要使用UUID或者其他自然主键,如身份证号(无序)
- 业务操作时,避免对主键的修改
order by优化
-
Using filesort:通过表的索引或全表扫描,读取满足条件的数据行,然后在排序缓冲区sort buffer中完成排序操作,所有不是通过索引直接返回排序结果的排序都叫FileSort排序
-
Using index:通过有序索引顺序扫描直接返回有序数据,这种情况及using index,不需要额外排序,操作效率高
优化思路:涉及order by应避免Using filesort
解决方案:排序字段建立索引
# 建立索引 索引默认按升序排列
create index idx_xxx on table_name(xxx1 [desc/asc],xxx2 [desc/asc]...);
总结
- 根据排序字段建立合适的索引,多字段排序时,遵循最左前缀法则
- 尽量使用覆盖索引,否则排序采用Using filesort
- 多字段排序,一个升序一个降序,此时需要注意联合索引在创建时的规则(ASC/DESC)
- 如果不可避免的出现filesort,大数据排序时,可适当增大排序 缓冲区大小 sort_buffer_size(默认256K)
group by优化
- 在分组操作时,可以通过索引来提高效率
- 分组操作时,索引的使用遵循最左前缀法则
limit优化
limit n,m在大数据量情况下,n越大,需要扫描n+m条数据,查询排序的代价非常大
优化思路:
一般分页查询时,通过创建覆盖索引能够较好提高性能,可以用覆盖索引加子查询形式进行优化
count优化
MyISAM引擎把一个表的总行数存在磁盘上,执行count(*)会直接返回这个数,效率很高,前提是不存在where
InnoDB执行count(*)时,需要把数据一行一行从引擎读出来,然后累积计数
**优化思路:**自己计数,例如没插入一条数据在redis某个key加一
count的几种用法
-
count()是一个聚合函数,对于返回的结果集,一行行判断,如果count函数的参数不是null,累计值就加1,否则不加,最后返回累计值
-
用法:count(*),count(主键),count(字段),count(1)
-
count(主键)
InnoDB引擎会遍历整张表把每一行的主键id值都取出来,返回给服务层。服务层拿到主键后,直接按行进行累加(主键不可能为null)
-
count(字段)
没有not null约束:InnoDB会遍历整张表把每一行的字段值都取出来,返回给服务层。服务层判断是否为null,不为null则进行累加
有not null约束:InnoDB会遍历整张表把每一行的字段值都取出来,返回给服务层,直接按行进行累加
-
count(1)
InnoDB引擎遍历整张表,但不取值。服务层对于返回的每一行,放一个数字“1”进去,直接按行进行累加
-
count(*)
InnoDB引擎并不会把全部字段取出来,而是专门做了优化,不取值,服务层直接按行进行累加
-
效率排序
count(字段) < count(主键) < count(1) ≈ count(*),所以尽量使用count(*)
update优化
InnoDB的行锁是针对索引加的锁,不是针对记录加的锁,并且该索引不能失效,否则会从行锁升级为表锁
例:update table_name set name = 'tom' where phone = 'xxxxxx',由于phone没有加索引,所以更新过程中加的是表锁,其他事务同表操作无法成功
update table_name set name = 'tom' where id= 'xxxxxx',id是主键(索引列),此时加的是行锁,别的事务更新其他行数据不受影响
尽量根据主键/索引字段进行数据更新
视图/存储过程/触发器
视图
介绍
视图View是一种虚拟存在的表。视图中的数据并不在数据库中实际存在,行和列数据来自定义视图的查询中使用的表,并且是在使用视图时动态生成的
通俗的讲,视图只保存了查询的SQL逻辑,不保存查询结果。所以我们在创建视图的时候,主要的工作就落在创建这条SQL查询语句上
语法
- 创建
create [or replace] view 视图名称[(列名列表)] as select语句 [with [cascaded | local] check option]
- 查询
# 查看创建视图语句
show create view 视图名称;
# 查看视图数据,等同于查表
select * from 视图名称 where ...;
- 修改
# 方式一
create [or replace] view 视图名称[(列名列表)] as select语句 [with [cascaded | local] check option]
# 方式二
alter view 视图名称[(列名列表)] as select语句 [with [cascaded | local] check option]
- 删除
drop view [if exists] 视图名称 [,视图名称]...;
视图的检查选项
当使用with check option子句创建索引时,mysql会通过视图检查正在更改的每个行,例如插入,更新,删除,以使其符合视图的定义。
Mysql允许基于另一个视图创建视图,它还会检查依赖视图中的规则以保持一致性。为了确定检查的范围,mysql提供了两个选项:
cascade和local,默认是cascade
cascade:检查规则会递归到子视图
local:只检查自身视图规则,子视图有规则则执行,没有则不执行
更新及作用
更新
要使视图可更新,视图中的行与基础表中的行之间必须存在一对一的关系。如果视图包含以下任何一项,则视图不可更新:
- 聚合函数或窗口函数(sum(),min(),max(),count()等)
- distinct
- group by
- having
- union或者union all
作用
-
视图不仅可以简化用户对数据的理解,也可以简化他们的操作。那些被经常使用的查询可以被定义为视图,从而使得用户不必为以后的操作每次指定全部得条件
-
安全
数据库可以授权,但不能授权到数据库特定行和特定的列上。通过视图用户只能查询和修改他们所能见到的数据
-
数据独立
视图可帮助用户屏蔽真实表结构变化带来的影响
存储过程
介绍
存储过程是事先经过编译并存储在数据库中的一段SQL语句集合,调用存储过程可以简化应用开发人员的很多工作,减少数据在数据库和应用服务器之间的传输,对于提高数据处理的效率是有好处的
存储过程思想上很简单,就是数据库SQL语言层面的代码封装与重用
-
特点
-
封装、复用
-
可以接收参数,也可以返回数据
-
减少网络交互,效率提升
-
基本语法
-
创建
create procedure 存储过程名([参数列表]) begin ---sql语句 end;
-
调用
call 名称([参数]);
-
查看
# 查询指定数据库的存储过程及状态信息 select * from information_schema.routines where routine_schema = 'xxx'; # 查询某个存储过程的定义 show create procedure 存储过程mingcheng;
-
删除
drop procedure [if exists] 存储过程名称;
注意
在命令行中,执行创建存储过程的SQL时,需要通过关键字delimiter指定SQL语句的结束符
变量
-
系统变量
mysql服务器提供,不是用户定义的,属于服务器层面。分为全局变量(global)、会话变量(session)
-
查看系统变量
# 查看所有系统变量 show [session | global] variables; # 可以通过like模糊匹配方式查找变量 show [session | global] variables like '...' # 查看指定变量的值 select @@[session | global] 系统变量名;
-
设置系统变量
set [session | global] 系统变量名 = 值;
set @@[session | global] 系统变量名 = 值;
注意
如果没有指定session/global,默认是session,会话变量
mysql服务重新启动之后,所设置的全局参数会失效,要想不失效,可以在/etc/my.cnf中配置
-
-
用户自定义变量
用户根据需要自己定义的变量,用户变量不用提前声明,在用的时候直接用“@变量名”使用就可以。其作用域为当前连接
-
创建
set @var_name = expr [,@var_name = expr]...; set @var_name := expr [,@var_name := expr]...; select @var_name := expr [,@var_name := expr]...]; select 字段名 into @var_name from 表名;
-
使用
select @var_name [,@var_name];
注意
用户自定义的变量无需对其进行声明或初始化,只不过获取到的值为null
-
-
局部变量
根据需要定义在局部生效的变量,访问之前,需要declare声明。可用作存储过程内的局部变量和输入参数,局部变量的范围是在其内声明的begin…end块。
-
声明
declare 变量名 变量类型 [default ...]; # 变量类型就是数据库字段类型 int、bigint、char、varchar、date、time等
-
赋值
set 变量名 = 值; set 变量名 := 值; select 字段名 into 变量名 from 表名...;
-
if
if 条件1 then
...
elseif 条件2 then --可选
...
else --可选
...
end if;
参数
类型 | 含义 | 备注 |
---|---|---|
IN | 该类参数作为输入,需要调用时传入值 | 默认 |
OUT | 该参数作为输出,可以作为返回值 | |
INOUT | 既可以作为输入参数,也可以作为输出参数 |
用法:
create procedure 存储过程名称([in/out/inout 参数名 参数类型])
begin
--SQL语句
end;
case
# 语法一
case case_value
when when_value1 then statement_list1
[when when_value2 then statement_list2]
...
[else statement_list]
end case;
# 语法二
case
when search_condition1 then statement_list1
[when search_condition2 then statement_list2]
[else statement_list]
end case;
循环
-
while
while循环是有条件的循环控制语句。满足条件后,再执行循环体中的SQL语句
# 先判定条件,如果条件为true,则执行逻辑,否则不执行逻辑 while 条件 do sql逻辑... end while;
-
repeat
repeat是有条件的循环控制语句,当满足条件的时候退出循环
# 先执行一次逻辑,然后判断逻辑是否满足,如果满足,则退出,否则继续下次循环 repeat sql逻辑... until 条件 end repeat;
-
loop
loop实现简单的循环,如果不在SQL逻辑中增加退出循环的条件,可以用其来实现简单的死循环。loop可以配合以下两个语句使用:
- leave:配合循环使用,退出循环
- iterate:必须用在循环中,作用是跳过当前循环剩下的语句,直接进入下一次循环
[begin_lable:] loop sql逻辑... end loop [end_lable]; # 退出指定标记的循环体 leave label; # 直接进入下一次循环 iterate label;
游标cursor
游标是用来存储查询结果集的数据类型,在存储过程和函数中可以使用游标对结果集进行循环的处理。游标的使用包括游标的声明、open、fetch和close,其语法分别如下:
-
声明游标
declare 游标名称 cursor for 查询语句;
-
打开游标
open 游标名称;
-
获取游标记录
fetch 游标名称 into 变量 [,变量];
-
关闭游标
close 游标名称;
条件处理程序handler
条件处理程序可以用来定义在流程控制结构执行过程中遇到问题时相应的处理步骤,具体语法:
# 语法
declare handler_action handler for condition_value [,condition_value]... statement;
# 参数值
handler_action
continue:继续执行当前程序
exit:终止执行当前程序
condition_value
sqlstate sqlstate_value:状态码,如02000
sqlwarning:所有以01开头的sqlstate代码的简写
not found:所有以02开头的sqlstate代码的简写
sqlexception:所有没有被sqlwarning或not found捕获的sqlstate代码的简写
mysql错误码查询:https://dev.mysql.com/doc/mysql-errors/8.0/en/server-error-reference.html
存储函数
存储函数是有返回值的存储过程,存储函数的参数只能是IN类型的,具体语法:
create function 存储函数mingc([参数列表])
returns type [characteristic ...]
begin
sql语句
return ...;
end;
# characteristic说明:
-- deterministic:相同的输入参数总是产生相同的结果
-- no sql:不包含sql语句
-- reads sql data:包含读取数据的语句,但不包含写入数据的语句
触发器
介绍
触发器是与表有关的数据库对象,只在insert/update/delete之前或之后,触发并执行触发器中定义的SQL语句集合。触发器的这种特性可以协助应用在数据库端确保数据的完整性,日志记录,数据校验等操作
使用别名OLD和NEW来引用触发器中发生变化的记录内容,这与其他的数据库是相似的。现在触发器还只是支持行级触发,不支持语句级触发
触发器类型 | NEW和OLD |
---|---|
INSERT型触发器 | NEW表示将要或者已经新增的数据 |
UPDATE型触发器 | OLD表示修改之前的数据,NEW表示将要或已经修改后的数据 |
DELETE型触发器 | OLD表示将要或者已经删除的数据 |
语法
-
创建
create trigger trigger_name before/after inset/update/delete on table_name for each row --行级触发器 begin tigger_stmt; end;
-
查看
show triggers;
-
删除
drop trigger [schema_name.]trigger_name; --如果没有指定schema_name,默认为当前数据库
锁
概述
锁是计算机协调多个进程或线程并发访问某一资源的机制。在数据库中,除传统的计算资源(cpu、ram、I/O)的争用以外,数据也是一种供多方用户共享的资源。如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问题,锁冲突也是影响数据库并发访问性能的一个重要因素。从这个角度来说,锁对数据库而言显得尤其重要,也更加复杂
分类
mysql中的锁,按照锁的粒度分,分为以下三类:
- 全局锁:锁定数据库中的所有表
- 表级锁:每次操作锁住整张表
- 行级锁:每次操作锁住对应的行数据
全局锁
介绍
全局锁就是对整个数据库实例加锁,加锁后整个实例就处于只读状态,后续的DML语句,DDL语句,已经更新操作的事务提交语句都将被阻塞
其经典的使用场景就是做全库的逻辑备份,对所有的表进行锁定,从而获取一致性视图,保证数据的完整性
语法
-
加锁
# 对当前数据库加锁 flush tables with read lock;
-
解锁
unlock tables;
PS: 数据库备份
# 该命令不是sql语句,直接在Windows命令行执行即可
mysqldump -uroot -p123456 数据库名 > sql文件名(test.sql)
特点
数据库中加全局锁是比较重的操作,存在以下问题:
- 如果在主库上备份,那么备份期间都不能执行更新,业务基本上就得停摆
- 如果在从库上备份,那么备份期间从库不能执行主库同步过来的二进制日志(binlog),会导致主从延迟
在InnoDB引擎中,备份时加上参数–single-transaction来完成不加锁的一致性数据备份
mysqldump --single-transaction -uroot -p123456 test > test.sql;
表级锁
介绍
表级锁,每次操作锁住整张表。锁定粒度大,发生锁冲突的概率最高,并发度最低。应用在MyISAM、InnoDB、BDB等存储引擎中
对于表级锁,主要分为三类:
-
表锁
- 表共享读锁(read lock)
- 表独占写锁(write lock)
语法
# 加锁 lock tables 表名... read/write; # 释放锁 unlock tables / 客户端断开连接
**总结:**读锁不会阻塞其他客户端的读,但是会阻塞所有的(包括自身)写;写锁既阻塞其他客户端的写又阻塞了其他客户端的读
-
元数据锁(meta data lock,MDL)
MDL加锁过程是系统自动控制,无需显式使用,在访问一张表的时候会自动加上。MDL锁主要作用是维护表元数据的数据一致性,在表上有活动事务的时候,不可以对元数据进行写操作
通俗说,如果该表有事务正在写,此时不能修改表结构,元数据可理解为表结构
为了避免DML与DDL冲突,保证读写的正确性
在mysql5.5中引入了MDL,当对一张表进行增删改查的时候,加MDL读锁(共享);当对表结构进行变更操作的时候,加MDL写锁(排他)
对应SQL 锁类型 说明 lock tables xxx reas/write shared_read_only/shared_no_read_write select、select … lock in share mode shared_read 与shared_read、shared_write兼容,与exclusive互斥 insert、update、delete、select … for update shared_write 与shared_read、shared_write兼容,与exclusive互斥 alter table … exclusive 与其他的MDL都互斥 查看元数据锁:
select object_type,object_schema,object_name,lock_type,lock_duration from performance_schema.metadata_locks;
-
意向锁
为了避免DML在执行时,加的行锁与表锁的冲突,在InnoDB中引入了意向锁,使得表锁不用检查每行数据是否加锁,使用意向锁来减少表锁的检查
-
意向共享锁(IS):由语句select … lock in share mode添加
与表锁共享锁(read)兼容,与表锁排它锁(write)互斥
-
意向排他锁(IX):由insert、update、delete、select … for update添加
与表锁共享锁(read)及排他锁(write)都互斥。意向锁之间不互斥
查看意向锁加锁情况:
select object_schema,object_name,index_name,lock_type,lock_mode,lock_data from performance_schema.data_locks;
-
行级锁
介绍
行级锁,每次操作锁住对应的行数据,锁定粒度最小,发生锁冲突的概率越低,并发度最高。应用在InnoDB存储引擎中
InnoDB的数据是基于索引组织的,行锁是通过对索引上的索引项加锁来实现,而不是对记录加锁。对于行级锁,主要分为三类:
- 行锁(Record Lock):锁定单个行记录的锁,防止其他事物对此进行update和delete,在RC,RR隔离级别下都支持
- 间隙锁(Gap Lock):锁定索引记录间隙(不含该记录),确保索引记录间隙不变,防止其他事务在这个间隙进行insert,产生幻读。在RR隔离级别下支持
- 临键锁(Next-Key-Lock):行锁和间隙锁组合,同时锁住数据,并锁住数据前面的间隙Gap。在RR隔离界别下支持。
行锁
InnoDB实现以下两种行锁:
-
共享锁(S):允许一个事务去读一行,阻止其他事务获得相同数据集的排它锁
-
排他锁(X):允许获取排他锁的事务更新数据,阻止其他事务获取相同数据集的共享锁和排他锁
当前锁类型\请求锁类型 S(共享锁) X(排他锁) S(共享锁) 兼容 冲突 X(排他锁) 冲突 冲突 各类SQL与行锁
SQL 行锁类型 说明 insert 排他锁 自动加锁 update 排他锁 自动加锁 delete 排他锁 自动加锁 select(正常) 不加任何锁 select … lock in share mode 共享锁 需要手动在select之后加lock in share mode select … for update 排他锁 需要手动在select之后加for update
默认情况下,InnoDB在repeatable read事物隔离级别运行,InnoDB使用next-key锁进行搜索和索引扫描,以防止幻读
- 针对唯一索引进行检索时,对已存在的记录进行等值匹配时,将会自动优化为行锁
- InnoDB的行锁是针对于索引加的锁,不通过索引条件检索数据,那么InnoDB将对表中的所有记录加锁,此时将会升级为表锁
可以通过以下SQL,查看意向锁及行锁的加锁情况:
select object_schema,object_name,index_name,lock_type,lock_mode,lock_data from performance_schema.data_locks;
间隙锁/临键锁
默认情况下,InnoDB在repeatable read事务隔离级别运行,InnoDB使用next-key锁进行搜索和索引扫描,以防止幻读
- 索引上的等值查询(唯一索引),给不存在的记录加锁时,优化为间隙锁
- 索引上的等值查询(普通索引),向右遍历时最后一个值不满足查询需求时,next-key lock退化为间隙锁
- 索引上的范围查询(唯一索引)–会访问到不满足条件的第一个值为止
注意
间隙锁唯一目的是防止其他事务插入间隙。间隙锁可以共存,一个事务采用的间隙锁不会阻止另一个事务在同一间隙上采用间隙锁
InnoDB核心
逻辑存储结构
- 表空间(ibd文件):一个mysql实例可以对应多个表空间,用于存储记录,索引等数据
- 段:分为数据段(leaf node segment)、索引段(Non-leaf node segment)、回滚段(Rollback segment),InnoDB是索引组织表,数据段就是B+数的叶子节点,索引段即B+树的非叶子节点。段用来管理多个Extent(区)
- 区:表空间的单元结构,每个区的大小为1M。默认情况下,InnoDB存储引擎页的大小为16K,即一个区一共有64个连续的页
- 页:InnoDB存储引擎磁盘管理的最小单元,每个页的大小默认为16KB。为了保证页的连续性,InnoDB存储引擎每次从磁盘申请4-5个区
- 行:InnoDB存储引擎数据是按行进行存放的
- Trx_id:每次对某条记录进行改动时,都会把对应的事务id赋值给trx_id隐藏列
- Roll_pointer:每次对某条记录进行改动时,都会把旧的版本写入到undo日志中,然后这个隐藏列就相当于一个指针,可以通过它来找到该记录修改前的信息
架构
mysql5.5版本开始,默认使用InnoDB存储引擎,它擅长事务处理,具有崩溃恢复特性,在日常开发中使用非常广泛。下面是InnoDB架构图,左侧为内存结构,右侧为磁盘结构
内存结构
-
Buffer Pool:缓冲池是主内存中的一个区域,里面可以缓存磁盘上经常操作的真实数据,在执行增删改查操作时,先操作缓冲池中的数据(若缓冲池没有数据,则从磁盘加载并缓存),然后再以一定频率刷新到磁盘,从而减少磁盘IO,加快处理速度
缓冲池以Page页为单位,底层采用链表管理Page。根据状态,将Page分为三种类型:
- free page:空闲page,未被使用
- clean page:被使用page,数据没有被修改过
- dirty page:脏页,被使用page,数据被修改过,页中数据与磁盘的数据产生了不一致
-
Change Buffer:更改缓冲区(针对于非唯一二级索引页),在执行DML语句时,如果这些数据Page没有在Buffer Pool中,不会直接操作磁盘,而会将数据变更存在更改缓冲区Change Buffer中,在未来数据被读取时,再将数据合并恢复到Buffer Pool中,再将合并后的数据刷新到磁盘中
Change Buffer的意义是什么?
与聚集索引不同,二级索引通常是非唯一的,并且以相对随机的顺序插入二级索引。同样,删除和更新可能会影响索引树中不相邻的二级索引页,如果每一次都操作磁盘,会造成大量的磁盘IO。有了ChangeBuffer之后,我们可以在缓冲池中进行合并处理,减少磁盘IO
-
Adaptive Hash index:自适应hash索引,用于优化对buffer pool数据的查询。InnoDB存储引擎会监控对表上各索引页的查询,如果观察到hash索引可以可以提升速度,则建立hash索引,称之为自适应hash索引
自适应hash索引,无需人工干预,是系统根据情况自动完成
参数:adaptive_hash_index
-
Log Buffer:日志缓冲区,用来保存要写入到磁盘中的log日志数据(redo log、undo log),默认大小为16MB,日志缓冲区的日志会定期刷新到磁盘中。如果需要更新、插入或删除许多行的事务,增加日志缓冲区的大小可以节省磁盘IO
参数:
innodn_log_buffer_size: 缓冲区大小
innodb_flush_log_at_trx_commit:日志刷新到磁盘时机
- 1:日志在每次事务提交时写入并刷新到磁盘
- 0:每秒将日志写入并刷新到磁盘一次
- 2:日志在每次事务提交后写入,并每秒刷新到磁盘一次
磁盘结构
-
System Tablespace:系统表空间是更改缓冲区的存储区域,如果表是在系统表空间而不是每个表文件或通用表空间中创建,它也可能包含表和索引数据(mysql5.x版本中还包含InnoDB数据字典,undolog等)
参数:innodb_data_file_path
-
File_Per_Table_Tablespaces:每个表的文件表空间包含单个InnoDB表的数据和索引,并存储在文件系统上的单个数据文件中
参数:innodb_file_per_table
-
General Tablespaces:通用表空间,需要通过create tablespace语法创建通用表空间,在创建表时,可以指定该表空间
# 创建表空间 create tablespace xxx add datafile 'file_name' engine = engine_name; # 指定表空间 create table xxx... tablespace ts_name;
-
Undo Tablespaces:撤销表空间,mysql实例在初始化时会自动创建两个默认的undo表空间(初始大小16M),
用于存储undo log日志
-
Temporary tablespaces: InnoDB使用会话临时表空间和全局临时表空间,存储用户创建的临时表等数据
-
Double Buffer Files: 双写缓冲区,InnoDB引擎将数据页从Buffer Pool刷新到磁盘前,先将数据页写入双写缓冲区文件中,便于系统异常时恢复数据
-
Redo Log:重做日志,是用来实现事务的持久性。该日志文件由两部分组成,重做日志缓冲(redo log buffer)以及重做日志文件(redo log),前者是在内存中,后者在磁盘中。当事务提交之后会把所有修改信息都会存到该日志中,用于在刷新脏页到磁盘时,发生错误时,进行数据恢复使用
后台线程
-
Master Thread
核心后台线程,负责调度其他线程,还负责将缓冲池中的数据异步刷新到磁盘中,保持数据的一致性,还包括脏页的刷新、合并插入缓存、undo页的回收
-
IO Thread
在InnoDB存储引擎中大量使用了AIO来处理IO请求,这样可以极大地提高数据库的性能,而IO Thread主要负责这些IO请求的回调
线程类型 默认个数 职责 Read Thread 4 负责则读操作 Write Thread 4 负责写操作 Log Thread 1 负责将日志缓冲区刷新到磁盘 Insert Buffer Thread 1 负责将写缓冲区内容刷新到磁盘 -
Purge Thread
主要用于回收事务已经提交了的undo log,在事务提交之后,undo log可能不用了,就用它来回收
-
Page Cleaner Thread
协助Master Thread 刷新脏页到磁盘的线程,它可以减轻Master Thread的工作压力,减少阻塞
事务原理
redo log
重做日志,记录的是事务提交时数据页的物理修改,是用来实现事务的持久性
该日志文件由两部分组成:重做日志缓冲(redo log buffer)以及重做日志文件(redo log file),前者是在内存中,后者在磁盘中。当事务提交之后会把所有修改信息都存到该日志文件中,用于刷新脏页到磁盘,发生错误时进行数据恢复使用
undo log
回滚日志,用于记录数据被修改前的信息,作用包含两个:提供回滚和MVCC(多版本控制)
undo log和redo log记录物理日志不一样,它是逻辑日志。可以认为但delete一条记录时,undo log中会记录一条对应的insert记录,反之亦然,当update一条记录时,它记录一条对应相反的update记录。当执行rollback时,就可以从undo log中的逻辑记录读取到相应的内容并进行回滚
undo log销毁:undo log在事务执行时产生,事务提交时,并不会立即删除undo log,因为这些日志可能还用于MVCC
undo log存储:undo log采用段的方式进行管理和记录,存放在前面介绍的rollback segment回滚段中,内部包含1024个undo log segment
原子性:undo log
持久性:redo log
一致性:undo log + redo log
隔离性:锁 + MVCC
MVCC
当前读
读取的是记录的最新版本,读取时还要保证其他并发事务不能修改当前记录,会对读取的记录进行加锁。对于我们日常的操作,如:select … lock in share mode(共享锁),select … for update,update,insert,delete(排他锁)都是一种当前读
快照读
简单的select(不加锁)就是快照读,快照读读取的是记录数据的可见版本,有可能是历史数据,不加锁,是非阻塞读
- Read Committed:每次select,都生成一个快照读
- Repeatable Read:开启事务后第一个select语句才是快照读的地方
- Serializable:快照读会退化为当前读
MVCC
全称 Multi-Version Concurrency Control,多版本并发控制。指维护一个数据的多个版本,使得读写操作没有冲突,快照读为MySql实现MVCC提供了一个非阻塞读功能。MVCC的具体实现,还需要依赖于数据库记录中的三个隐式字段、undo log日志、readView
实现原理
- MVCC依赖的三个隐藏字段
隐藏字段 | 含义 |
---|---|
DB_TRX_ID | 最近修改事务ID,记录插入这条记录或最后一次修改该记录的事务ID |
DB_ROLL_PIR | 回滚指针,指向这条记录的上一个版本,用于配合undo log,指向上一个版本 |
DB_ROW_ID | 隐藏主键,如果表结构没有主键,将会生成该隐藏字段 |
- undo log版本链
不同事务或相同事务对同一条记录进行修改,会导致该记录的undo log生成一条记录版本链表,链表的头部是最新的旧记录,链表尾部是最早的旧记录
-
readview
ReadView(读视图)是快照读SQL执行时MVCC提取数据的依据,记录并维护系统当前活跃的事务(未提交的)id
ReadView中包含四个核心字段:
字段 含义 m_ids 当前活跃的事务ID集合 min_trx_id 最小活跃事务ID max_trx_id 预分配事务ID,当前最大事务ID+1(因为事务ID是自增的) create_trx_id ReadView创建者的事务ID
Mysql管理
Mysql自带数据库,具体作用如下:
数据库 | 含义 |
---|---|
mysql | 存储mysql服务器正常运行所需要的各种信息(时区、主从、用户、权限等) |
information_schema | 提供了访问数据库元数据的各种表和视图,包含数据库、表、字段类型及访问权限等 |
performance_schema | 为mysql服务器运行时状态提供了一个底层监控功能,主要用于收集数据库服务器性能参数 |
sys | 包含了一系列方便DBA和开发人员利用performance_schaema性能数据库进行性能调优和诊断的视图 |
常用工具
-
mysql
该mysql不是指mysql服务,而是指mysql的客户端工具
语法:
mysql [options] [database] # 例 mysql -h 127.0.0.1 -p 3306 -u root -p 123456
-e 执行SQL语句并退出,在mysql客户端执行SQL语句而不用连接数据库再操作
# 示例 mysql -uroot -p123456 db01 -e "select * from tb_user";
-
mysqladmin
mysqladmin是一个执行管理操作的客户端程序。可以用它来检查服务器的配置和当前状态,创建并删除数据库等
通过帮助文档查看选项:
mysqladmin --help # 示例 mysqladmin -uroot -p123456 drop "db01"; mysqladmin -uroot -p123456 version;
-
mysqlbinlog
由于服务器生成的二进制日志文件以二进制格式保存,所以如果想要检查这些文本的文本格式,都会使用到mysqlbinlog日志管理工具
# 语法 mysqlbinlog [options] log-files1 log-files2 ...
-
mysqlshow
客户端对象查找工具,用来很快地查找存在哪些数据库、数据库中的表、表中的列或索引
# 语法 mysqlshow [options][db_name[table_name[col_name]]]
-
mysqldump
客户端工具用来备份数据库或在不同数据库之间进行数据迁移。备份内容包含创建表及插入表的SQL语句
# 语法 mysqldump [options] db_name[tables]; mysqldump [options] --database/-B db1 [db2 db3 ...] mysqldump [options] --all-databases/-A
-
mysqlimport/source
mysqlimport是客户端数据导入工具,用来导入mysqldump加-T参数后导出的文本文件
# 语法 mysqlimport [options] db_name textfile1 [textfile2...]
如果需要导入sql文件,可以使用mysql中的source指令
# 语法 source /path/xxx.sql