事务消息可以认为是两阶段提交消息的实现,用来确保分布式系统中的最终一致性。事务消息保证执行本地事务的执行和消息发送的原子性。
RocketMQ除了支持普通消息,顺序消息,另外还支持事务消息。首先讨论一下什么是事务消息以及支持事务消息的必要性。
举例
我们以一个转帐的场景为例来说明这个问题:Bob向Smith转账100块。
在单机环境下,执行事务的情况,大概是下面这个样子:
![33b78998386e24de9ec1086121457d33.png](https://img-blog.csdnimg.cn/img_convert/33b78998386e24de9ec1086121457d33.png)
单机环境下转账事务示意图
当用户增长到一定程度,Bob和Smith的账户及余额信息已经不在同一台服务器上了,那么上面的流程就变成了这样:
![9ae00de2f6da3a185d778fcdee191994.png](https://img-blog.csdnimg.cn/img_convert/9ae00de2f6da3a185d778fcdee191994.png)
集群环境下转账事务示意图
这时候你会发现,同样是一个转账的业务,在集群环境下,耗时居然成倍的增长,这显然是不能够接受的。那如何来规避这个问题?
大事务 = 小事务 + 异步
将大事务拆分成多个小事务异步执行。这样基本上能够将跨机事务的执行效率优化到与单机一致。转账的事务就可以分解成如下两个小事务:
![081417a0be60503b2e51676481c584d0.png](https://img-blog.csdnimg.cn/img_convert/081417a0be60503b2e51676481c584d0.png)
小事务+异步消息
图中执行本地事务(Bob账户扣款)和发送异步消息应该保证同时成功或者同时失败,也就是扣款成功了,发送消息一定要成功,如果扣款失败了,就不能再发送消息。那问题是:我们是先扣款还是先发送消息呢?
首先看下先发送消息的情况,大致的示意图如下:
![77caa26bd2d4d2ffee16484e5bab586d.png](https://img-blog.csdnimg.cn/img_convert/77caa26bd2d4d2ffee16484e5bab586d.png)
事务消息:先发送消息
存在的问题是:如果消息发送成功,但是扣款失败,消费端就会消费此消息,进而向Smith账户加钱。
先发消息不行,那就先扣款吧,大致的示意图如下:
![89b946b2fd31e76baf7dbb7621e0116a.png](https://img-blog.csdnimg.cn/img_convert/89b946b2fd31e76baf7dbb7621e0116a.png)
事务消息-先扣款
存在的问题跟上面类似:如果扣款成功,发送消息失败,就会出现Bob扣钱了,但是Smith账户未加钱。
可能大家会有很多的方法来解决这个问题,比如:直接将发消息放到Bob扣款的事务中去,如果发送失败,抛出异常,事务回滚。这样的处理方式也符合“恰好”不需要解决的原则。
这里需要说明一下:如果使用Spring来管理事物的话,大可以将发送消息的逻辑放到本地事物中去,发送消息失败抛出异常,Spring捕捉到异常后就会回滚此事物,以此来保证本地事物与发送消息的原子性。
RocketMQ支持事务消息
下面来看看RocketMQ是怎样来实现的。
![aa63a07623f1bb9a8c50357b89fa6bc3.png](https://img-blog.csdnimg.cn/img_convert/aa63a07623f1bb9a8c50357b89fa6bc3.png)
RocketMQ实现发送事务消息
RocketMQ第一阶段发送Prepared消息时,会拿到消息的地址,第二阶段执行本地事物,第三阶段通过第一阶段拿到的地址去访问消息,并修改消息的状态。
细心的你可能又发现问题了,如果确认消息发送失败了怎么办?RocketMQ会定期扫描消息集群中的事物消息,如果发现了Prepared消息,它会向消息发送端(生产者)确认,Bob的钱到底是减了还是没减呢?如果减了是回滚还是继续发送确认消息呢?RocketMQ会根据发送端设置的策略来决定是回滚还是继续发送确认消息。这样就保证了消息发送与本地事务同时成功或同时失败。
那我们来看下RocketMQ源码,是如何处理事务消息的。
客户端发送事务消息的部分(完整代码请查看:rocketmq-example工程下的com.alibaba.rocketmq.example.transaction.TransactionProducer):
![5e52e0ef3a4c3a597f727635806df75f.png](https://img-blog.csdnimg.cn/img_convert/5e52e0ef3a4c3a597f727635806df75f.png)
sendMessageInTransaction方法的源码
总共分为3个阶段:
- 发送Prepared消息、
- 执行本地事务、
- 发送确认消息。
![2eb1ba09c2649dd65232d89147147c5b.png](https://img-blog.csdnimg.cn/img_convert/2eb1ba09c2649dd65232d89147147c5b.png)
endTransaction方法会将请求发往broker(mq server)去更新事务消息的最终状态:
- 根据sendResult找到Prepared消息 ,sendResult包含事务消息的ID
- 根据localTransaction更新消息的最终状态
如果endTransaction方法执行失败,数据没有发送到broker,导致事务消息的 状态更新失败,broker会有回查线程定时(默认1分钟)扫描每个存储事务状态的表格文件,如果是已经提交或者回滚的消息直接跳过,如果是prepared状态则会向Producer发起CheckTransaction请求,Producer会调用DefaultMQProducerImpl.checkTransactionState()方法来处理broker的定时回调请求,而checkTransactionState会调用我们的事务设置的决断方法来决定是回滚事务还是继续执行,最后调用endTransactionOneway让broker来更新消息的最终状态。
再回到转账的例子,如果Bob的账户的余额已经减少,且消息已经发送成功,Smith端开始消费这条消息,这个时候就会出现消费失败和消费超时两个问题,解决超时问题的思路就是一直重试,直到消费端消费消息成功,整个过程中有可能会出现消息重复的问题,按照前面的思路解决即可。
![dbdc00b50fecd906e5613c6c538c9c66.png](https://img-blog.csdnimg.cn/img_convert/dbdc00b50fecd906e5613c6c538c9c66.png)
消费事务消息
这样基本上可以解决消费端超时问题,但是如果消费失败怎么办?阿里提供给我们的解决方法是:人工解决。大家可以考虑一下,按照事务的流程,因为某种原因Smith加款失败,那么需要回滚整个流程。如果消息系统要实现这个回滚流程的话,系统复杂度将大大提升,且很容易出现Bug,估计出现Bug的概率会比消费失败的概率大很多。这也是RocketMQ目前暂时没有解决这个问题的原因,在设计实现消息系统时,我们需要衡量是否值得花这么大的代价来解决这样一个出现概率非常小的问题,这也是大家在解决疑难问题时需要多多思考的地方。