【搞定MySQL数据库】第8篇：事务到底是隔离的还是不隔离的？

最新推荐文章于 2022-07-26 23:08:54 发布

pcwl1206

最新推荐文章于 2022-07-26 23:08:54 发布

阅读量464

点赞数

分类专栏： MySQL 搞定MySQL数据库文章标签：事务隔离 MySQL 一致性视图

本文链接：https://blog.csdn.net/pcwl1206/article/details/86379655

版权

MySQL 同时被 2 个专栏收录

14 篇文章 7 订阅

订阅专栏

搞定MySQL数据库

12 篇文章 1 订阅

订阅专栏

本文为本人学习极客时间《MySQL实战45讲》的学习笔记。

原文链接：https://time.geekbang.org/column/article/70562

本文目录：

1、“快照”在 MVCC 里是怎么工作的？

2、更新逻辑

3、总结

在第五篇文章：事务隔离中提到过，如果是可重复读隔离级别，事务 T 启动的时候会创建一个视图 read-view ，之后事务 T 执行期间，即使有其他事务修改了数据，事务 T 看到了仍然跟在启动时看到的一样。也就是说，一个在可重复读隔离级别下执行的事务，好像与世无争，不受外界影响。

但是，事务隔离中也提到过：一个事务要更新一行，如果刚好有另外一个事务拥有这一行的行锁，它又不能这么超然了，会被锁住，进入等待状态。问题是：既然进入了等待状态，那么等到这个事务自己获取到行锁要更新数据的时候，它读到的值又是什么呢？

举个例子，下面是一个只有两行的表的初始化语句：

mysql> CREATE TABLE `t` (
  `id` int(11) NOT NULL,
  `k` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB;
insert into t(id, k) values(1,1),(2,2);

这里，我们需要注意的是：事务的启动时机。

begin / start transaction 命令并不是一个事务的起点，在执行到它们之后第一个操作 InnoDB 表的语句（第一个快照语句），事务才真正启动。如果你要马上启动一个事务，可以使用 start transaction with consistent snapshot 这个命令。

还需要说明的是：如果没有特殊说明，都是默认：autocommit = 1。

在上诉的例子中，事务 C 没有显示地使用 begin / commmit，表示这个 update 语句本身就是一个事务，语句完成的时候会自动提交。事务 B 在更新了之后再查询；事务 A 在一个只读事务中查询，并且时间顺序上是在事务 B 的查询之后。

这时，如果我告诉你事务 B 查到的 k 的值是 3，而事务 A 查到的 k 的值是 1，你是不是感觉到有点晕呢？

在 MySQL 里，有两个“视图”的概念：

1、一个是 view 。它是一个用查询语句定义的虚拟表，在调用的时候执行查询语句并生成结果。创建视图的语法是：create view ... ，而它的查询方法与表一样；

2、另一个是 InnoDB 在实现 MVCC 时用到的一致性读视图，即 consistent read view，用于支持 RC（Read Committed，读提交）和 RR（Repeatable Read，可重复读）隔离级别的实现。

它没物理结构，作用是：事务执行期间用来定义“我能看到什么数据”。

1、“快照”在 MVCC 里是怎么工作的？

在可重复读隔离级别下，事务在启动的时候就“拍了个快照”。注意：这个快照是基于整库的。

这时，你会说这看上去不太现实啊。如果一个库有 100G，那么我启动一个事务，MySQL 就要拷贝 100G 的数据出来，这个过程得多慢啊。可是，我平时的事务执行起来很快啊。

实际上，我们并不需要拷贝出这 100G 的数据。我们先来看看这个快照是怎么实现的。

InnoDB 里面每个事务有一个唯一的事务 ID，叫做 transaction id。它是在事务开始的时候向 InnoDB 的事务系统申请的，是按申请顺序递增的。

而每行数据也都是有多个版本的。每次事务更新数据的时候，都会生成一个新的数据版本，并且把 transaction id 赋值给这个数据版本的事务 ID，记为 row trx_id。同时，旧的数据版本要保留，并且在新的数据版本中，能够有信息可以直接拿到它。

也就是说，数据表中的一行记录，其实可能有多个版本（row），每个版本有自己的 row trx_id。

如下图所示，就是一个记录被多个事务连续更新后的状态：

按照可重复读的定义，一个事务启动的时候，能够看到所有已经提交的事务结果。但是之后，这个事务执行期间，其他事务的更新对它不可见。

因此，一个事务只需要在启动的时候声明说：“以我启动的时刻为准，如果一个数据版本是在我启动之前生成的，就认；如果是我启动之后才生成的，我就不认，我必须找到它的上一个版本（实质上是它在我开启事务前的版本）”。

当然，如果“上一个版本”也不可见，那就得继续往前找。还有，如果是这个事务自己更新的数据，它自己还是要认的，即对自己是可见的。

实际上，InnoDB 为每个事务构造了一个数组，用来保存这个事务启动瞬间，当前正在“活跃”的所有事务 ID。“活跃”指的是：启动了但还没提交。

数组里面事务 ID 的最小值记为低水位，当前系统里面已经创建过的事务 ID 的最大值加 1 记为高水位。这个视图数组和高水位，就组成了当前事务的一致性视图（read-view）。

而数据版本的可见性规则，就是依据数据的 row trx_id 和这个一致性视图的对比结果得到的。这个视图数组把所有的 row trx_id 分成了几种不同的情况。

这样，对于当前事务的启动瞬间来说，一个数据版本的 row trx_id，有以下几种可能：

1、如果落在绿色部分，表示这个版本是已提交的事务或者是当前事务自己生成的，这个数据是可见的；

2、如果落在红色部分，表示这个版本是由将来启动的事务生成的，是肯定不可见的；

3、如果落在黄色部分，包括以下两种情况：

a.若 row trx_id 在数组中，表示这个版本是由还没有提交的事务生成的，不可见；
b.若 row trx_id 不在数组中，表示这个版本是已经提交了的事务生成的，可见。

所以：InnoDB 利用了“所有数据都有多个版本”的特性，实现了“秒级创建快照”的能力。

下面，我们继续看下图 1 中的三个事务，分析下事务 A 的语句返回的结果，为什么是 k=1。这里，我们不妨做如下假设：

1、事务 A 开始前，系统里面只有一个活跃事务 ID 是 99；

2、事务 A、B、C 的版本号分别是 100、101、102，且目前系统里只有这四个事务；

3、三个事务开始前，（1, 1）这一行数据的 row trx_id 是 90。

这样，事务 A 的视图数组就是 [99, 100]，事务 B 的视图数组就是 [99, 100, 101]，事务 C 的视图数组是 [99, 100, 101, 102]。

为了简化分析，将其他干扰语句去掉，下图中只画出跟事务 A 查询逻辑有关的操作：

下面将上面的判断规则总结下。一个数据版本，对于一个事务视图来说，除了自己的更新总是可见以外，其他三种情况如下：

1、版本未提交，不可见；

2、版本已提交，但是是在视图创建后提交的，不可见；

3、版本已提交，而且是在视图创建前提交的，可见。

2、更新逻辑

这时候你可能有疑问了：事务 B 的 update 语句，如果按照一致性读，好像结果不对啊？

看下图图 5 中，事务 B 的视图数组是先生成的，之后事务 C 才提交，不是应该看不见（1, 2）吗？怎么能算出（1, 3）来呢？

如果事务 B 在更新之前查询一次数据，这个查询结果返回的 k 的值确实是 1。

但是，当它要去更新数据的时候，就不能再在历史版本上更新了，否则事务 C 的更新就丢失了。因此，事务 B 此时的 set k = k + 1 是在（1, 2）的基础上进行的操作。

所以，这里就用到这样一条规则：更新数据都是先读后写的，而这个读，只能读当前的值，称为“当前读”（current read）。

因此，在更新的时候，当前读拿到的数据是 (1,2)，更新后生成了新版本的数据 (1,3)，这个新版本的 row trx_id 是 101。

所以，在执行事务 B 查询语句的时候，一看自己的版本号是 101，最新数据的版本号也是 101，是自己的更新，可以直接使用，所以查询得到的 k 的值是 3。

这里我们提到了一个概念：当前读。其实除了 update 语句外，select 语句如果加锁，也是放前读。

所以，如果把事务 A 的查询语句 select * from t where id=1 修改一下，加上 lock in share mode 或 for update，也都可以读到版本号是 101 的数据，返回的 k 的值是 3.下面这两个 select 语句就是分别加了读锁（S锁，共享锁）和写锁（X锁，排它锁）。

mysql> select k from t where id=1 lock in share mode;
mysql> select k from t where id=1 for update;

再往前一步，假设事务 C 不是马上提交的，而是变成了下面的事务 C’，会怎么样呢？

事务 C' 的不同是：更新后并没有马上提交，在提交之前，事务 B 的更新语句先发起了。前面说过了，虽然事务 C' 还没有提交，但是（1, 2）这个版本已经生成了，并且是当前最新的版本。那么事务 B 的更新语句会怎么处理呢？

这时候，就需要用到“两阶段锁协议”了。事务 C' 没提交，也就是说（1, 2）这个版本的写锁还没有释放。而事务 B 是当前读，必须要读最新版本，而且必须加锁，因此就被锁住了，必须等到事务 C‘ 释放这个锁，才能继续它的当前读。

现在，我们把一致性读、当前读合行锁就串起来了。

现在，我们再回到文章开头的问题：事务的可重复读的能力是怎么实现的？

可重复读的核心是一致性读（consistent read）；而事务更新数据的时候，只能用当前读。如果当前的记录的行锁被其他事务占用的话，就需要进入锁等待。

而读提交的逻辑合可重复读的逻辑类似，它们的主要区别是：

1、在可重复读隔离级别下，只需要在事务开始的时候创建一致性视图，之后的事务里的其他查询都共用这个一致性视图；

2、在读提交隔离级别下，每一个执行语句执行前都会重新算出一个新的视图。

3、总结

InnoDB 的行数据有多个版本，每个数据版本有自己的 row trx_id，每个事务或者语句有自己的一致性视图。普通查询语句是一致性读，一致性读会根据 row trx_id 和一致性视图确定数据版本的可见性。

对于可重复读，查询只承认在事务启动前就已经提交完成的数据；
对于读提交，查询只承认在语句启动前就已经提交完成的数据。

而当前读，总是读取已经提交完成的最新版本。

你也可以想一下，为什么表结构不支持“可重复读”？这是因为表结结构没有对应的行数据，也没有 row trx_id，因此只能遵循当前读的逻辑。当然，MySQL 8.0 已经可以把表结构放在 InnoDB 字典里了，也许以后会支持表结构的可重复读。

pcwl1206

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【搞定MySQL数据库】第8篇：事务到底是隔离的还是不隔离的？

本文为本人学习极客时间《MySQL实战45讲》的学习笔记。原文链接：https://time.geekbang.org/column/article/70562本文目录：1、“快照”在 MVCC 里是怎么工作的？2、更新逻辑3、总结在第五篇文章：事务隔离中提到过，如果是可重复读隔离级别，事务 T 启动的时候会创建一个视图 read-view ，之后事务 T 执行期间，即使有...
复制链接

扫一扫

专栏目录