分布式事务TCC模式常见问题:空回滚,幂等,悬挂出现原因及解决方案

空回滚

在没有调用TCC资源Try方法得情况下,调用了二阶段得Cancel方法,Cancel方法需要识别出这是一个空回滚,然后直接返回成功。

出现原因

当一个分支事务所在服务宕机或者网络异常,分支事务调用记录为失败,这个时候其实还没有执行Try阶段的,当故障恢复后,分支事务进行回滚则会调用二阶段得Cancel方法,从而形成空回滚。

解决思路

解决的关键就是要识别出这个空回滚。方法很简单就是需要知道一阶段是否执行,如果执行了,那就是正常回滚;如果没执行,那就是空回滚。TM在发起全局事务时会生成全局事务记录,全局事务ID贯穿整个分布式事务调用链条。可以再额外增加一张分支事务记录表,其中有全局事务 ID 和分支事务 ID,第一阶段 Try 方法里会插入一条记录,表示一阶段执行了。Cancel 接口里读取该记录,如果该记录存在,则正常回滚;如果该记录不存在,则是空回滚。

幂等

TCC模式在Try阶段执行成功后必须保证二阶段也成功执行,所以二阶段需要有重试机制。

幂等出现原因

为了保证TCC二阶段提交重试机制不会引发数据不一致,要求 TCC 的二阶段 Try、Confirm 和 Cancel 接口保证幂等,这样不会重复使用或者释放资源。如果幂等控制没有做好,很有可能导致数据不一致等严重问题。

解决思路


在上述“分支事务记录”中增加执行状态,每次执行前都查询该状态,如果是未执行的状态则执行否则不执行。
 

悬挂

悬挂就是对于一个分布式事务,其二阶段 Cancel 接口比 Try 接口先执行。


出现原因

在 RPC(远程访问) 调用分支事务try时,先注册分支事务,再执行RPC调用,如果此时 RPC 调用的网络发生拥堵,通常 RPC 调用是有超时时间的,RPC 超时以后,TM就会通知RM回滚该分布式事务,可能回滚完成后,RPC 请求才到达参与者并且真正执行成功,而此时Try 方法才执行完成并且将所需的业务资源预留,但是此时二阶段已经完成无法对预留的资源做出处理。对于这种情况,我们就称为悬挂即业务资源预留后没法继续处理。


解决思路

是如果二阶段执行完成,那一阶段就不能再继续执行。在执行一阶段事务时判断在该全局事务下,“分支事务记录”表中是否已经有二阶段事务记录,如果有则不执行Try。
 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值