分布式事务相关概念与理论

融极

已于 2022-07-03 23:25:54 修改

阅读量173

点赞数

分类专栏：数据库架构文章标签：分布式数据库 java

于 2022-07-03 18:50:55 首次发布

本文链接：https://blog.csdn.net/tianzhonghaoqing/article/details/125584940

版权

数据库同时被 2 个专栏收录

63 篇文章 2 订阅

订阅专栏

架构

31 篇文章 0 订阅

订阅专栏

1 基础概念

1.1 什么是事务

什么是事务？举个生活中的例子：你去小卖铺买东西，“一手交钱，一手交货”就是一个事务的例子，交钱和交货必须全部成功，事务才算成功，任何一个活动失败，事务将撤销所有已成功的活动。
明白例子，再来看事务的定义：
事务可以看做是一次大的活动，它有不同的小活动组成，这些活动要么全部成功，要么全部失败。

1.2 本地事务

在计算机系统中，更多的是通过关系型数据库来控制事务，这是利用数据库本身的事物特性来实现的，因此叫数据库事务，由于应用主要靠关系型数据库来控制事务，而数据库通常和应用在同一个服务器，所以基于关系型数据库事务又被称为本地事务。
回顾一下数据库事务的四大特性：ACID。

A（Atomic）：原子性

构成事务的所有操作，要么都执行完成，要么全部不执行，不可能出现部分成功部分失败的情况。

C（Consistency）：一致性

在事务执行前后，数据库的一致性约束没有被破坏。比如：张三向李四转100元，转账前和转账后的数据时正确状态这叫一致性，如果出现张三转出100元，李四账号没有增加100元这就出现了数据错误，就没有达到一致性。

I（Isolation）：隔离性

数据库中的事务一般都是并发的，隔离性是指并发的两个事务的执行互不干扰，一个事务不能看到其他事务运行过程的中间状态。通过配置事务隔离级别可以避免脏读、重复读等问题。

D（Durability）：持久性

事务完成之后，该事务对数据的更改会被持久化到数据库，且不会被回滚。
数据库事务在实现时会将一次事务涉及的所有操作全部纳入到一个不可分割的执行单元，该执行单元中所有操作要么都成功，要么都失败，只要其中任一操作执行失败，都将导致整个事务的回滚。

分布式事务

随着互联网的快速发展，软件系统由原来的单体应用转变为分布式应用，下图描述了单体应用向微服务的演变：
在这里插入图片描述
分布式系统会把一个应用系统拆分为可独立部署的多个服务，因此需要服务与服务之间远程协作才能完成事务操作，这种分布式系统环境下由不同的服务之间通过网络远程协作完成事务称之为分布式事务，例如用户注册送积分事务、创建订单减库存事务，银行转账事务等都是分布式事务。

我们知道本地事务依赖数据库本身提供的事务特性来实现，因此以下逻辑可以控制本地事务：

begin transaction;
  //1. 本地数据库操作：张三减少金额
  //2. 本地数据库操作：李四增加金额
commit transaction;

但是在分布式环境下，会变成下边这样：

begin transaction;
  // 1.本地数据库操作：张三减少金额
  // 2.远程调用：让李四增加金额
commit transaction;

可以设想，当远程调用让李四增加金额成功了，由于网络问题远程调用并没有返回，此时本地事务提交失败就回滚了张三减少金额的操作，此时张三和李四的数据就不一致了。
因此在分布式架构的基础上，传统的数据库事务就无法使用了，张三和李四的账号不在一个数据库中甚至不在一个应用系统里，实现转账事务需要通过远程调用，由于网络问题就好导致分布式事务问题。

1.4分布式事务产生的场景

1、典型的场景就是微服务架构，微服务之间通过远程调用完成事务操作。比如：订单微服务和库存微服务，下单的同时订单微服务请求库存微服务减少库存。简而言之：跨JVM进程产生分布式事务。
在这里插入图片描述
2、单体系统访问多个数据库实例，当单体系统需要访问多个数据库（实例）时就会产生分布式事务。比如：用户信息和订单信息分别在两个MySQL实例存储，用户管理系统删除用户信息，需要分别删除用户信息及用户的订单信息，由于数据分布在不同的数据实例，需要通过不同的数据库链接去操作数据，此时产生分布式事务。简言之：跨数据库实例产生分布式事务。
在这里插入图片描述
3、多服务访问同一个数据库示例，比如：订单微服务和库存微服务即使访问同一个数据库也会产生分布式事务，原因就是跨JVM进程，两个微服务持有了不同的数据库链接进行数据库操作，此时产生分布式事务。
在这里插入图片描述
总之，就是一个分布式事务可以拆成多个本地事务，不管本地事务是否操作一个数据库实例，只有不同的本地事务组成一个大的逻辑事务，这个逻辑事务就是分布式事务。

2 分布式事务基础理论

通过前面的学习，我们了解到分布式事务的基础概念。与本地事务不同的是，分布式系统之所以叫分布式，是因为提供服务的各个节点分布在不同机器上，相互之间通过网络交互。不能因为有一点网络问题就导致整个系统无法提供服务，网络因素成为了分布式事务的考量标准之一。因此，分布式事务需要更进一步的理论支持，接下来，我们先来学习一下分布式事务的CAP理论。
在讲解分布式事务控制解决方案之前需要先学习一些基础理论，通过理论知识指导我们确定分布式事务控制的目标，从而帮助我们理解每个解决方案。

2.1 CAP理论

2.1.1 理解CAP

CAP是Consistency、Availability、Partition tolerance三个词的缩写，分别表示一致性、可用性、分区容忍性。
下边我们分别来解释：
为了方便对CAP理论的理解，我们结合电商系统中的一些业务场景来理解CAP。
如下图，是商品信息管理的执行流程。
在这里插入图片描述
整体执行流程如下：

商品服务请求主数据库写入商品信息（添加商品、修改商品、删除商品）。
主数据库想商品服务响应写成功。
商品服务请求从数据库读取商品信息。

C-Consitency

一致性是指写操作后的读操作可以读取到最新的数据状态，当数据库分布在多个节点上，从任意节点读取到的数据都是最新的状态。
上图中，商品信息的读写要满足一致性就是要实现如下目标：

商品服务写入主数据库成功，则向从数据库查询新数据也成功。
商品服务写入主数据库失败，则向从数据库查询新数据也失败。
如何实现一致性？
写入主数据库后要将数据同步到从数据库。
写入主数据库后，在向从数据库同步期间要将从数据库锁定，待同步完成后再释放锁。以免在新数据库写入成功后，向从数据库查询到旧的数据。

分布式系统一致性的特点

由于存在数据同步的过程，写操作的响应会有一定的延迟。
为了保证数据一致性会对资源暂时锁定，待数据同步完成释放锁定资源。
如果请求数据同步失败的节点则会返回错误信息，一定不会返回旧数据。

A-Availability

可用性是指任何事务操作都可以得到响应结果，且不会出现响应超时或响应错误。
上图中，商品信息读取满足可用性就是要实现如下目标：

从数据库接收到数据查询的请求则立即能够响应数据查询结果。
从数据库不允许出现响应超时或响应错误。
如何实现可用性
写入主数据库后要将数据同步到从数据库。
由于要保证从数据库的可用性，不可将从数据库中的资源进行锁定。
即使数据还没有同步过来，从数据库也要返回要查询的数据，哪怕是旧数据，如果连旧数据也没有则可以按照约定返回一个默认信息，但不能返回错误或响应超时。
分布式系统可用性的特点
所有请求都有响应，且不会出现响应超时或响应错误。

P-Partition tolerance

通常分布式系统的各个节点部署在不同的子网，这就是网络分区，不可避免的会出现由于网络问题而导致节点之间通信失败，此时仍可对外提供服务，这叫分区容忍性。
上图中，商品信息读写满足分区容忍性就是要实现如下目标：

主数据向从数据库同步数据失败不影响读写操作。
其一个节点挂掉不影响另一个节点对外提供服务。
如何实现分区容忍性
尽量使用异步取代同步操作，例如使用异步方式将数据从数据库同步到从数据库，这样节点之间能有效的实现松耦合。
添加从数据库节点，其中一个节点挂掉其他从节点提供服务。
分布式分区容忍性的特点
分区容忍性是分布式系统具备的基本能力。

CAP组合方式

上班商品管理的例子是否同时具备CAP呢？
在索引分布式事务场景中不会同时具备CAP三个特性，因为在具备了P的前提下C和A是不能共存的。
比如下图满足了P即表示实现了分区容忍：

本图分区容忍的含义是：
主数据库通过网络向从数据库同步数据，可以认为主数据库部署在不同的分区，通过网络进行交互。
当主数据库和从数据库之间的网络出现问题不影响主数据库和从数据库对外提供服务。
当其中一个节点挂掉不影响另一节点对外提供服务。
如果要实现C则必须保证数据一致性，在数据库同步的时候为防止向从数据库查询不一致的数据则需要将从数据库锁定，待同步完成后解锁，如果同步失败从数据库要返回错误信息或者超时信息。

如果要实现A则必须保证数据可用性，不管任何时候都可以向数据库查询数据，则不会响应超时或返回错误信息。
通过分析发现在满足P的前提下C和A存在矛盾性。

CAP有哪些组合方式呢

所以在生产中对分布式处理时要根据需求来确定满足CAP的那两个方面。

AP
放弃一致性，追求分区容忍性和可用性，这是很多分布式系统设计的选择。
例如：
上边的商品管理，完全可以实现AP，前提是只要用户可以接受所查询到的数据在一定时间内不是最新的即可。
通常实现AP都会保证最终一致性，后面将的BASE理论就是根据AP来扩展的，一些业务场景，比如：订单退款，今日退款成功，明日账号到账，只要用户可以接受在一定时间内到账即可。
CP
放弃可用性，追求一致性和分区容错性，我们的zookeeper其实就是追求的强一致性，又比如跨行转账，一次跨行转账请求要等待双方银行系统都完成整个事务才算完成。
CA
放弃分区容错性，即不进行分区，不考虑由于网络不通或节点挂掉的问题，则可以实现一致性和可用性。那么系统将不是一个标准的分布式信息，我们最常用关系型数据库就满足CA。
上边的商品管理，如果要实现CA则架构如下：

主数据库和从数据中间不再进行数据同步，数据库可以响应每次的查询请求，通过事务隔离级别实现每个查询请求都可以返回最新的数据。

总结

通过上面我们已经学习了CAP理论的相关知识，CAP是一个已经被证实的理论：一个分布式系统最多只能同时满足一致性、可用性和分区容忍性这三项中的两项。它可以作为我们进行架构设计、技术选型的考量标准。对于多数大型互联网应用的场景，节点众多、部署分散，而且现在的集群规模越来越大，所以节点故障、网络故障是常态，而且要保证服务可用性达到N个9（99.999…%），并要达到良好的响应性能来提高用户体验，因此一般都会做出如下选择：保证P和A，舍弃C强一致，保证最终一致性。

BASE理论

理解强一致和最终一致性

CAP理论告诉我们一个分布式系统最多只能满足一致性、可用性和分区容忍性这三项中的两项，其中AP在实际应用中较多，AP舍弃一致性，保证可用性和分区容忍性，但是在实际生产中很多场景都要实现一致性，比如前边我们举的例子主数据向从数据库同步数据，即使不要一致性，但是最终也要将数据同步成功来保证数据一致，这种一致性和CAP的一致性不同，CAP的一致性要求在任何时间查询每个节点数据都必须一致，它强调的是强一致性，但是最终一致性是允许可以在一段时间内每个节点的数据不一致，但是经过一段时间每个节点的数据必须一致，它强调的是最终数据的一致性。

Base理论介绍

BASE是Basically Availiable（基本可以）、Soft state（软状态）和Eventually consistent(最终一致性）三个短信的缩写。BASE理论是对CAP的一个扩展，通过牺牲强一致性来获的可用性，当出现故障允许部分不可用但要保证核心功能可用，允许数据在一段时间内是不一致的，但最终达到一致状态。满足BASE理论的事务，我们称之为“柔性事务”。

基本可用：分布式系统出现故障时，允许损失部分可用功能，保证核心功能可用。如，电商网站交易付款出现问题了，商品依然可以正常浏览。
软状态：由于不要求强一致性，所以BASE允许系统中存在中间状态（也叫软状态），这个状态不影响系统可用性，如订单的“支付中”、“数据同步中”等状态，待数据最终一致后状态改为“成功”状态。
最终一致：最终一致是指经过一段时间后，所有节点数据都将达到一致。如订单的“支付中”状态，最终会变为“支付成功”或者“支付失败”，使订单状态与实际交易结果达成一致，但需要一定时间的延迟、等待。

3 分布式事务解决方案之2PC（两阶段提交）

前面已经学习了分布式事务的基础理论，以理论为基础，针对不同的分布式场景业界常见的解决方案有2PC、TCC、可靠消息最终一致性、最大努力通知几种。

3.1 什么是2PC

2PC即两阶段提交协议，是将整个事务流程分为两个阶段，准备阶段（Prepare phase）、提交阶段（Commit phase），2是指两个阶段，P是指准备阶段，C是指提交阶段。
举例：张三和李四好久不见，老友约起聚餐，饭店老板要求先买单，才能出票。这时张三和李四分别抱怨近况不如意，囊中羞涩，都不愿意请客，这时只能AA。只有张三和李四都付款，老板才能出票安排就餐。但由于张三和李四都是铁公鸡，形成了尴尬的一幕：

准备阶段：老板要求张三付款，张三付款。老板要求李四付款，李四付款。
提交阶段：老板出票，两人那票纷纷落座就餐。
例子中形成了一个事务，若张三或李四其中一个人拒绝付款，或者钱不够，店老板不会给出票，并且会把已收款退回。
整个事务过程有事务管理器和参与者组成，店老板就是事物管理器，张三、李四就是事物参与者，事务管理器负责决策整个分布式事务的提交或回滚，事务参与者负责自己本地事务的提交和回滚。
在计算机中部分关系型数据库如Oracle、MySQL支持两阶段提交协议。

准备阶段（Prepare phase）：事务管理器给每个参与者发送Prepare消息，每个数据库参与者在本地执行事务，并写本地的Undo/Redo日志，此时事务没有提交。
（Undo日志是记录修改前的数据，用于数据库回滚，Redo日志是记录修改后的数据，用于提交事务后写入数据文件）。
提交阶段（Commit phase）：如果事务管理器收到了参与者的执行失败或者超时消息时，直接给每个参与者发送回滚（Rollback）消息；否则，发送提交（Commit）消息；参与者根据事务管理器的指令执行提交或者回滚操作，并释放事务处理过程中使用的锁资源。注意：必须在最后阶段释放资源。
下图展示了2PC的两个阶段，分成功和失败两个情况说明：
成功情况：

3.2 解决方案

3.2.1 XA方案

2PC的传统方案是在数据库层面实现的，如Oracle、MySQL都支持2PC协议，为了统一标准减少行业内不必要的对接成本，需要制定标准的处理模型及接口标准，国际开放标准组织Open Group定义了分布式事务处理模型DTP（Distributed Transaction Processing Reference Mode）。
为了让大家更明确XA方案的内容，下面新用户注册送积分为例来说明：
在这里插入图片描述
执行流程如下：

应用程序（AP）持有用户库和积分库两个数据源。
AP通过TM通知用户库RM新增用户，同时通知积分库RM为该用户新增积分，RM此时并未提交事务，此时用户和积分资源锁定。
TM收到执行回复，只要有一方失败则分别想其他RM发起回滚事务，回滚完毕，资源锁释放。
TM收到执行回复，全部成功，此时向索引RM发起提交事务，提交完毕，资源锁释放。
DTP模型定义如下角色：

AP（Application Program）：即应用程序，可以理解为使用DTP分布式事务的程序。
RM（Resource Manager）：即资源管理器，可以理解为事务的参与者，一般情况下是指一个数据库实例，通过资源管理器对该数据库进行控制，资源管理器控制这分支事务。
TM（Transaction Manager）：事务管理器，负责协调和管理事务，事务管理器控制着全局事务，管理事务生命周期，并协调各个RM。全局事务是指分布式事务处理环境中，需要操作多个数据库共同完成一个工作既是一个全局事务。
DTP模型定义TM和RM之间通讯的接口规范叫XA，简单理解为数据库提供的2PC协议，基于数据库的XA协议来实现2PC又称为XA方案。
以上三个角色之间的交互方式如下：
- TM向AP提供应用程序编程接口，AP通过TM提交及回滚事务。
- TM通过XA接口来通知RM数据库事务的开始、结束以及提交、回滚等。
  总结：
  整个2PC的事务流程涉及三个角色AP、RM、TM。AP指的使用2PC分布式事务的应用程序；RM指的是资源管理器，它控制这分支事务；TM指的是事务管理器，它控制着整个全局事务。
  1）在准备阶段RM执行实际的业务操作，但不提交事务，资源锁定；
  2）在提交阶段TM会接收RM在准备阶段的执行回复，只要有任一个RM执行失败，TM会通知所有RM执行回滚操作，否则，TM将会通知所有RM提交该事务。提交阶段结束资源锁释放。

XA方案的问题

需要本地数据库支持XA协议。
资源锁需要等到两个阶段结束才释放，性能较差。

3.2.2 Seata方案

seata是由阿里中间件团队发起的开源项目Fescar，后更名为Seata，它是一个开源的分布式事务框架。
传统2PC的问题在Seata中得到了解决，它通过了对本地关系数据库的分支事务的协调来驱动完成全局事务，是工作在应用层的中间件。主要优点是性能较好，且不长时间占用连接资源，它以高效并且对业务0侵入的方式解决微服务场景下面临的分布式事务问题，它目前提供AT模式（即2PC）及TCC模式的分布式事务解决方案。

Seata的设计思想如下

Seata的设计目标其一是对业务无侵入，因此从业务无侵入的2PC方案着手，在传统2PC的基础上演进，并解决2PC方案面临的问题。
Seata把一个分布式事务理解成一个包含了若干分支事务的全局事务。全局事务的职责是协调其下管辖的分支事务达成一致，要么一起成功提交，要么一起失败回滚。此外，通常分支事务本身就是一个关系数据库的本地事务，下图是全局事务与分支事务的关系图：
在这里插入图片描述
与传统2PC的模型类似，Seata定义了3个组件来协议分布式事务的处理过程：

Transaction Coordinator（TC）：事务协调器，它是独立的中间件，需要独立部署运行，它维护全局事务的运行状态，接收TM指令发起全局事务的提交与回滚，负责与RM通信协调各个分支事务的提交或回滚。
Transaction Manager（TM）：事务管理器，TM需要嵌入应用程序中工作，它负责开启一个全局事务，并最终想TC发起全局事务提交或全局回滚的指令。
Resource Manager（RM）：控制分支事务，负责分支注册、状态汇报，并接收事务协调器TC的指令，驱动分支（本地）事务的提交和回滚。
还拿新用户注册送积分举例Seata的分布式事务过程：

具体的执行流程如下

用户服务的TM向TC申请开启一个全局事务，全局事务创建成功并生成一个全局唯一的XID。
用户服务的RM向TC注册分支事务，该分支事务在用户服务执行新增用户逻辑，并将其纳入XID对应全局事务的管辖。
用户服务执行分支事务，向用户表插入一条记录。
逻辑执行到远程调用积分服务是（XID在微服务调用链路的上下文中传播）。积分服务的RM向TC注册分支事务，该分支事务执行增加积分的逻辑，并将其纳入XID对应全局事务的管辖。
积分服务执行分支事务，向积分记录表中插入一条记录，执行完毕后，返回用户服务。
用户服务分支事务执行完毕。
TM向TC发起针对XID的全局提交或回滚决议。
TC调用XID下管辖的全部分支事务完成提交或回滚请求。

Seata实现2PC与传统2PC的差别

架构层次方面，传统2PC方案的RM实际上是在数据库层，RM本质上就是数据库自身，通过XA协议实现，而Seata的RM是以jar包的形式作为中间件层部署在应用程序这一侧的。
两阶段提交方面，传统2PC无论第二阶段的决议是commit还是rollback，事务性资源的锁都要保持到Phase2完成才释放。而Seata的做法是在Phase1就将本地事务提交，这样就可以省去Phase2持锁的时间，整体提供效率。