saga分布式事务框架原理学习

最新推荐文章于 2024-07-24 11:44:39 发布

敲代码的文科生

最新推荐文章于 2024-07-24 11:44:39 发布

阅读量4k

点赞数 3

文章标签：分布式事务

原文链接：https://docs.servicecomb.io/saga/en_US/index.html

版权

文章目录

一、SAGA介绍

SAGA来源于1987年普林斯顿大学的Hector Garcia-Molina和Kenneth Salem发表了一篇Paper Sagas，讲述的是如何处理long lived transaction（长活事务）。Saga是一个长活事务可被分解成可以交错运行的子事务集合。其中每个子事务都是一个保持数据库一致性的真实事务。通俗来说，这个长活事务是由多个本地事务所组成，每个本地事务有相应的执行模块和补偿模块，当saga事务中的任意一个本地事务出错了，可以通过调用相关事务对应的补偿方法恢复，达到事务的最终一致性。

随着微服务的出现，越来越多的人想解决分布式事务问题，Saga也逐步受到大家的关注，是比较受欢迎的业界分布式事务解决方案之一，目前开源的框架有华为Apache ServiceComb Saga 。

二、SAGA组成

每个Saga由一系列sub-transaction Ti 组成

每个Ti 都有对应的补偿动作Ci，补偿动作用于撤销Ti造成的结果

可以看到，和TCC相比，Saga没有“预留”动作，它的Ti就是直接提交到库。

Saga的执行顺序有两种：

T1, T2, T3, …, Tn

T1, T2, …, Tj, Cj,…, C2, C1，其中0 < j < n

Saga定义了两种恢复策略：

backward recovery，向后恢复，补偿所有已完成的事务，如果任一子事务失败。即上面提到的第二种执行顺序，其中j是发生错误的sub-transaction，这种做法的效果是撤销掉之前所有成功的sub-transation，使得整个Saga的执行结果撤销。

forward recovery，向前恢复，重试失败的事务，假设每个子事务最终都会成功。适用于必须要成功的场景，执行顺序是类似于这样的：T1, T2, …, Tj(失败), Tj(重试),…, Tn，其中j是发生错误的sub-transaction。该情况下不需要Ci。

显然，向前恢复没有必要提供补偿事务，如果你的业务中，子事务（最终）总会成功，或补偿事务难以定义或不可能，向前恢复更符合你的需求。

理论上补偿事务永不失败，然而，在分布式世界中，服务器可能会宕机，网络可能会失败，甚至数据中心也可能会停电。在这种情况下我们能做些什么？最后的手段是提供回退措施，比如人工干预。

三、SAGA的优缺点

优势：

1、丰富的理论基础，有较为成熟的开源框架，且Apache ServiceComb Saga已经进入apache项目孵化，未来也会不断的演进升级，且有比较完善的文档和用户手册

2、作为ServiceComb微服务分布式事务的解决方案，和ServiceComb天然无缝结合，方便平台在集成serviceComb微服务和分布式事务框架的时候减少工作量和阻力

3、基于BASE定理，提供基本可用的服务能力，与tcc相比：

有些业务很简单，套用TCC需要修改原来的业务逻辑，而Saga只需要添加一个补偿动作就行了。

TCC最少通信次数为2n，而Saga为n（n=sub-transaction的数量）。

有些第三方服务没有Try接口，TCC模式实现起来就比较tricky了，而Saga则很简单。

没有预留动作就意味着不必担心资源释放的问题，异常处理起来也更简单（请对比Saga的恢复策略和TCC的异常处理）

缺陷：

1、缺少预留动作，是优势也是缺点，导致补偿动作的实现比较麻烦：Ti就是commit，比如一个业务是发送邮件，在TCC模式下，先保存草稿（Try）再发送（Confirm），撤销的话直接删除草稿（Cancel）就行了。而Saga则就直接发送邮件了（Ti），如果要撤销则得再发送一份邮件说明撤销（Ci），实现起来有一些麻烦。

2、saga不保证ACID,只保持服务的基本可用和数据的最终一致性，事务隔离性差，要保证数据不被脏读需要在业务上进行相应的逻辑处理