分布式事务 CAP 理解论证解决方案

最新推荐文章于 2025-03-21 21:44:59 发布

置顶四月天五月雨

最新推荐文章于 2025-03-21 21:44:59 发布

阅读量1.7w

点赞数 24

分类专栏：分布式 java系列中间件文章标签：分布式事务本地消息表 2PC两阶段提交 TCC事务补偿机制

本文链接：https://blog.csdn.net/weixin_40533111/article/details/85069536

版权

java系列同时被 3 个专栏收录

23 篇文章

订阅专栏

中间件

7 篇文章

订阅专栏

分布式

2 篇文章

订阅专栏

原文链接:https://blog.csdn.net/weixin_40533111/article/details/85069536 作者四月天五月雨^_^，转载请注明出处，谢谢

前言

在大型系统架构演变中,当前下,分布式是一个必然的选择,分布式事务是绕不开的一个点.

正文

1.概述

在单体架构中,我们的事务可以通过数据库的ACID来操作,不会出现什么问题.

1.1 问题描述:

但随着规模扩大,我们的逻辑服务进行拆分A,B,C…模块,部署在多台服务器,数据库一般也是多台,进行了分库分表等操作,这些A,B,C…模块间通过网络通信完成协作,那此刻就产生了单体应用触发不了的问题:

一致性问题: 既然是多个数据库,那么通过网络操作,客观上就会存在延时(短距离很小,当跨国时就很慢了)甚至不可达,
可用性问题: 用户访问某个页面,应该给提供可预期的结果,而不是浏览器报错,404,500,页面丢失…等等,可以通过一些策略完成
网络分区:在分布式场景中,不可避免的会出现多个模块系统协同工作,根据墨菲定律,就一定有几率发生网络中断, 延时,不可达等客观存在问题

产生的问题不止这三种,但其他的都是可处理的问题,这三种是大头
注意误区: 因为先有分区的存在,才导致了一致性和可用性问题

1.2 CAP 理论:

而对于分布式中的问题的解决方案,CAP原则出现,描述如下:

一致性(Consistency):
像A节点写入一条信息之后,同一时刻,在其他节点都可以读到这条信息
可用性(Availability):
多布一些节点A,B,C…,任何时刻,用户访问,都应该以可预期的结果返回,而不是浏览器报错,404,500,页面丢失…等用户体验不好的情况发生
分区容忍性(PartitionTolerance):
当各系统模块间通信出现问题时,设计一个策略,使系统仍可对外提供满足一致性或可用性

刚接触cap时,有些不理解分区容忍性,我们自己倒推一下:

为了保证一致性,我们需要各个节点同步消息
为了保证可用性我们可以多部署节点,部分节点挂了仍可对外提供服务
为了保证分区容忍性:此刻卡壳了,怎么做?没了一种具体的方式,然而他还是客观存在的
后来发现:进入了思维盲点:只要在分布式场景中,分区必然存在,那么如果不处理分区发生时的情况,节点无法通讯时会发生什么?–此刻如果仍对外提供服务,那么导致无法同步消息,即保证不了强一致性;如果要保证强一致性,那么就需要节点阻塞,一直等待通讯恢复,即保证不了可用性.
所以分区容忍性就是:当发生分区问题时,我们使用策略,在一致性和可用性二者间选择

注意: 无法通信包括网络问题,或者节点机器宕机
误区: CAP理论中说三者不可兼得,但实际情况是,在分布式场景中分区一定存在,即必须有分区容忍性对应的策略,之后才能在一致性和可用性间二者之间选择.所以对主流架构来说不是三选二,而是二选一

1.3 三种组合:

分布式系统中,为了提高强一致性,应该使用更少的节点,这样更容易同步消息,而为了提高可用性,不得不增加节点,保证高可用,矛盾,所以需要取舍:

CA:
保证可用性和一致性,放弃分区:除非不是分布式架构,或者应用在一个永不会通信故障的网络中(理想),只有个别场景符合,当前的互联网架构显然不符合使用
CP:
保证一致性和分区容忍性,放弃可用性:当节点间不可通信时,进行阻塞,直到通信恢复,期间无法再对外提供服务,用户体验不好,如A转账给B,只有A扣款成功并B收款成功,整个事务才算完成,显然耗费资源
AP:
保证可用性和分区容忍性,放弃强一致性(使用最终一致性):给出一个用户可以忍受的时间,时间内达成数据的最终一致性,比如跨行转账,并不是立刻到账,可能是明天,或者2小时内到账

2 论证

操作: 在北京和上海各有一个节点Node1和Node2,我们对Node1插入一条数据
看到这里,就假定默认选择了分区容忍性,在此基础上抉择A和C:

2.1在网络稳定时:

向Node1插入一条数据,数据可以同步到Node2,在北京和上海访问,没什么区别
在这里插入图片描述

2.2在网络中断时:

向Node1插入一条数据,Node1在向Node2同步时,网络中断,假如北京和上海的用户是访问的两个节点,此刻你刚插入的数据在上海是访问不到的,此刻就要进行抉择:
1.保留强一致性:节点1同步到节点2之前,就不显示插入成功,一直阻塞,直到同步成功,
2.保留可用性:向节点1插入一条消息后,用一条消息通知节点2(这个消息要确保成功),此时给用户返回插入成功,等网络恢复后,执行这条消息即可;除非特大自然灾害,一般的网络问题都可以短时间恢复.
在这里插入图片描述

可根据各自的业务场景,选择对应的策略
注意: 随着规模的继续扩大,节点更多,我们维持一致性的成本更高

3 解决方案

3.1 维护本地消息表

分布式事务就是跨多个系统的事务,可以拆分为多个子系统的本地事务;
分布式事务=A系统本地事务 + B系统本地事务 + 消息通知;
准备: A系统维护一张消息表log1,状态为未执行,B系统维护2张表,未完成表log2,已完成表log3,消息中间件用两个topic,topic1是A系统通知B要执行任务了,topic2是B系统通知A已经完成任务了,
在这里插入图片描述
1.用户在A系统里领取优惠券,并往log1插入一条记录
2.由定时任务轮询log1,发消息给B系统
3.B系统收到消息后,先检查是否在log3中执行过这条消息,没有的话插入log2表,并进行发短信,发送成功后删除log2的记录,插入log3
4.B系统发消息给A系统
5.A系统根据id删除这个消息

我们假设网络中断:
1.在1处中断:此时我们插入优惠券和log1用的本地事务,即使发消息失败,有定时任务轮询,会再次发送
2.在2处中断:当B系统发短信后,通知A系统失败,因为A系统有定时任务轮询,会重复再发一次,所以B系统会先检查log3,如果已经执行过了,就不发短信了,再次给A系统发送执行完成的消息,

实现最终事务一致要求：
预留资源成功理论上要求正式执行成功，如果执行失败会进行重试，要求业务执行方法实现幂等,每次执行的结果不变;
**优点:**开发简单,mq性能较高
**缺点:**业务耦合,因为频繁轮询数据库,增大了数据库负载,此时数据库的性能瓶颈尤为明显,不适合大高并发场景,中等的规模还是可以满足的

3.2 使用rocketmq事务消息

阿里巴巴的rocketmq支持事务消息,实现机制,可以参考另一篇博客:https://blog.csdn.net/weixin_40533111/article/details/84451219

3.3 两阶段提交协议(2PC)

为解决分布式系统的数据一致性问题出现了两阶段提交协议（2 Phase Commitment Protocol），两阶段提交由
协调者和参与者组成，共经过两个阶段和三个操作，部分关系数据库如Oracle、MySQL支持两阶段提交协议.
流程图:
在这里插入图片描述
1）第一阶段：准备阶段（prepare）
协调者通知参与者准备提交订单，参与者开始投票。
协调者完成准备工作向协调者回应Yes。
2）第二阶段：提交(commit)/回滚(rollback)阶段
协调者根据参与者的投票结果发起最终的提交指令。
如果有参与者没有准备好则发起回滚指令。
一个下单减库存的例子：
在这里插入图片描述

1、应用程序连接两个数据源。
2、应用程序通过事务协调器向两个库发起prepare，两个数据库收到消息分别执行本地事务（记录日志），但不提
交，如果执行成功则回复yes，否则回复no。
3、事务协调器收到回复，只要有一方回复no则分别向参与者发起回滚事务，参与者开始回滚事务。
4、事务协调器收到回复，全部回复yes，此时向参与者发起提交事务。如果参与者有一方提交事务失败则由事务协
调器发起回滚事务。
2PC的优点：实现强一致性，部分关系数据库支持（Oracle、MySQL等）。
缺点：整个事务的执行需要由协调者在多个节点之间去协调，增加了事务的执行时间，性能低下。
解决方案有：springboot+Atomikos or Bitronix
3PC主要是解决协调者与参与者通信阻塞问题而产生的，它比2PC传递的消息还要多，性能不高。详细参考3PC：

3.4 TCC事务补偿机制

TCC事务补偿是基于2PC实现的业务层事务控制方案，它是Try、Confirm和Cancel三个单词的首字母，含义如下：

Try 检查及预留业务资源
完成提交事务前的检查，并预留好资源。
Confirm 确定执行业务操作
对try阶段预留的资源正式执行。
Cancel 取消执行业务操作
对try阶段预留的资源释放。

示例:
在这里插入图片描述

Try
下单业务由订单服务和库存服务协同完成，在try阶段订单服务和库存服务完成检查和预留资源。
订单服务检查当前是否满足提交订单的条件（比如：当前存在未完成订单的不允许提交新订单）。
库存服务检查当前是否有充足的库存，并锁定资源。
Confirm
订单服务和库存服务成功完成Try后开始正式执行资源操作。
订单服务向订单写一条订单信息。
库存服务减去库存。
Cancel
如果订单服务和库存服务有一方出现失败则全部取消操作。
订单服务需要删除新增的订单信息。
库存服务将减去的库存再还原。
优点：最终保证数据的一致性，在业务层实现事务控制，灵活性好。XA两阶段提交资源层面的，而TCC实际上把资源层面二阶段提交上提到了业务层面来实现。有效了的避免了XA两阶段提交占用资源锁时间过长导致的性能地下问题。
缺点：开发成本高，每个事务操作每个参与者都需要实现try/confirm/cancel三个接口。
注意：TCC的try/confirm/cancel接口都要实现幂等性，在为在try、confirm、cancel失败后要不断重试;它让多个系统保证了原子性操作,因此成本还是比较高的。

幂等性:
幂等性是指同一个操作无论请求多少次，其结果都相同。
幂等操作实现方式有：
1、操作之前在业务方法进行判断如果执行过了就不再执行。
2、缓存所有请求和处理的结果，已经处理的请求则直接返回结果
3、在数据库表中加一个状态字段（未处理，已处理），数据操作时判断未处理时再处理。