MVCC的定义与原理

最新推荐文章于 2024-07-19 07:01:13 发布

Souwy

最新推荐文章于 2024-07-19 07:01:13 发布

阅读量969

点赞数 27

文章标签：数据库 java oracle

本文链接：https://blog.csdn.net/Souwy/article/details/135649717

版权

MVCC的定义与原理

定义

MVCC，全称为多版本并发控制（Multi-Version Concurrency Control），是一种用于解决数据库读写冲突的技术。在传统的数据库锁定机制中，当一个事务正在对数据进行修改时，其他事务无法同时访问该数据，这就可能导致了资源的浪费和效率的降低。而MVCC则通过创建数据的多个版本来避免这种情况，使得在一个事务正在修改数据的同时，其他事务仍然可以读取到数据的旧版本。

原理

MVCC的工作原理主要基于两个核心概念：事务时间戳和数据版本。

事务时间戳：每当一个新的事务开始时，它会获得一个唯一的、递增的时间戳。这个时间戳代表了事务的开始时间，并且将被用于确定事务之间的先后顺序。
数据版本：在MVCC模型中，每条数据都有多个版本，每个版本都包含了数据的值以及创建此版本的事务的时间戳。当一个事务需要读取数据时，系统会找到该事务时间戳之前最近的数据版本；当一个事务需要修改数据时，系统会创建一个新的数据版本，并将其时间戳设置为当前事务的时间戳。

通过这样的方式，MVCC实现了事务间的隔离，使得每个事务都有自己独立的视图，可以在不被其他事务干扰的情况下进行操作。同时，由于数据版本是按需创建的，因此MVCC也能有效地节省存储空间。

需要注意的是，虽然MVCC允许多个事务并发读写，但它并不能完全消除冲突。例如，当两个事务试图修改同一条数据时，只有时间戳较早的那个事务能够成功，而另一个事务则会因为所谓的"写-写冲突"而失败。这种情况下，通常需要通过某种方式（如回滚和重试）来解决冲突。

MVCC的实现方式

MVCC 的实现主要依赖于两个核心机制：时间戳和数据版本。下面我们将详细解析这两个机制。

时间戳

在 MVCC 中，每一个事务开始时都会被分配到一个唯一且递增的时间戳。这个时间戳代表了事务的开始时间，并用来确定事务之间的先后顺序。时间戳是 MVCC 实现并发控制的关键因素，它决定了哪些数据版本对当前事务可见，以及事务提交时是否存在冲突。

数据版本

在 MVCC 模型中，数据库不再只保存一份最新的数据，而是为每条数据维护多个版本。每个版本都包含了数据的值和创建此版本的事务的时间戳。当事务需要读取数据时，系统会找到该事务时间戳之前最近的数据版本；当事务需要修改数据时，系统会创建一个新的数据版本，并将其时间戳设置为当前事务的时间戳。

读操作与写操作

读操作

当进行读操作时，MVCC 会根据事务的时间戳选择合适的数据版本。具体来说，如果某个数据版本的时间戳小于等于事务的时间戳，并且该版本是所有满足此条件的版本中时间戳最大的，那么这个版本就是该事务应该读取的版本。

写操作

当进行写操作时，MVCC 会创建一个新的数据版本，并将其时间戳设置为当前事务的时间戳。这样，后续开始的事务就可以看到这个新的数据版本。同时，旧的数据版本仍然保留，以供早期开始但尚未结束的事务使用。

冲突检测与解决

虽然 MVCC 允许多个事务并发执行，但是如果两个事务试图修改同一条数据，那么可能会出现冲突。在 MVCC 中，冲突的解决通常依赖于时间戳：具有较早时间戳的事务可以成功提交，而具有较晚时间戳的事务则需要回滚并重试。

MVCC的优缺点

优点

高并发性能: MVCC通过为每个读操作创建数据的快照，使得读操作无需等待写操作完成，大大提升了数据库的并发处理能力。
一致性读取: 在MVCC中，读者不会阻塞作者，也就是说读操作可以在任何时候进行，而且总是看到一致的快照。这样保证了事务隔离性，避免了脏读、幻读和不可重复读的问题。
减少锁冲突: 由于MVCC采用多版本的方式来处理数据，并且读操作不会产生锁，因此可以显著减少锁冲突的可能性，提高系统的整体性能。

缺点

增加存储开销: MVCC需要为每一个版本的数据都保存一份拷贝，这将导致更大的存储开销。尤其是在有大量写操作的场景下，数据版本的数量可能会非常大，从而消耗大量的存储空间。
回滚复杂度较高: 当事务失败需要回滚时，MVCC需要找到对应的旧版本数据并恢复，这个过程相比单版本并发控制要复杂些。
垃圾收集: 由于每个事务都可能创建新的数据版本，因此需要有一个机制来定期清理不再被任何事务引用的旧版本数据。这个过程称为垃圾收集，它会增加系统的复杂性，并且如果处理不当，可能会影响到数据库的性能。
写操作冲突: 虽然MVCC可以有效地解决读-写和写-读的冲突，但是对于写-写冲突，即两个事务同时修改同一条记录，仍然需要依赖锁机制进行处理。

MVCC在数据库中的应用

MVCC是一种广泛应用于各种数据库系统的并发控制技术，包括但不限于PostgreSQL、MySQL(InnoDB引擎)、Oracle等。下面我们将详细介绍这些数据库如何使用MVCC来提高并发性能。

PostgreSQL

在PostgreSQL中，每个事务都有一个唯一的事务ID，用于标识该事务开始时的时间戳。当读取数据时，PostgreSQL会检查每个元组（即行）的版本信息，只返回那些在当前事务开始之前就已经存在，并且没有被其他同时运行的事务删除的元组。

为了实现这一点，PostgreSQL在每个元组中保存两个额外的系统列：xmin和xmax。xmin记录了创建这个元组的事务ID，而xmax记录了删除这个元组的事务ID（如果元组还未被删除，则xmax为空）。通过比较事务ID和xmin/xmax，PostgreSQL可以确定哪些元组对当前事务可见。

此外，PostgreSQL还使用一个名为“多版本旧快照”的机制来处理长时间运行的查询。这个机制允许查询在开始时获取一个数据的静态视图，然后在整个查询过程中保持这个视图的一致性，从而避免了由于并发更新导致的数据不一致问题。

MySQL (InnoDB)

InnoDB存储引擎是MySQL中默认的存储引擎，它使用MVCC来支持高并发。InnoDB为每个事务创建一个唯一的事务ID，并在每个记录中保存两个额外的隐藏列：DB_TRX_ID和DB_ROLL_PTR。DB_TRX_ID用于存储最后修改该记录的事务ID，而DB_ROLL_PTR则指向undo日志，用于在需要时回滚事务。

当读取数据时，InnoDB会检查每个记录的DB_TRX_ID，只返回那些在当前事务开始之前就已经存在，并且没有被其他同时运行的事务删除的记录。

此外，InnoDB还提供了四种不同的隔离级别，通过控制是否允许脏读、不可重复读和幻读，以满足不同应用的需求。

Oracle

Oracle数据库也采用了MVCC机制来处理并发操作。Oracle为每个事务分配一个唯一的事务ID，并将这个ID与事务所做的所有更改关联起来。当读取数据时，Oracle会检查每个数据块的版本信息，只返回那些在当前事务开始之前就已经存在，并且没有被其他同时运行的事务删除的数据。

Oracle使用undo段来存储旧版本的数据，当需要回滚事务或者构造某个时间点的数据快照时，可以从undo段中获取相应的数据。

Souwy

关注

27
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
MVCC的定义与原理

MVCC，全称为多版本并发控制（Multi-Version Concurrency Control），是一种用于解决数据库读写冲突的技术。在传统的数据库锁定机制中，当一个事务正在对数据进行修改时，其他事务无法同时访问该数据，这就可能导致了资源的浪费和效率的降低。而MVCC则通过创建数据的多个版本来避免这种情况，使得在一个事务正在修改数据的同时，其他事务仍然可以读取到数据的旧版本。
复制链接

扫一扫