分布式中间件（三）：RocketMQ 提问

Men-DD

已于 2022-07-29 10:12:19 修改

阅读量266

点赞数

分类专栏：消息中间件提问文章标签：分布式中间件 rocketmq

于 2022-06-15 11:38:13 首次发布

本文链接：https://blog.csdn.net/menxu_work/article/details/125290929

版权

提问同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

消息中间件

13 篇文章 0 订阅

订阅专栏

一、RocketMQ 如何保证消息不丢失？

哪些环节会有丢消息的可能？

在这里插入图片描述

1，2，4 三个场景跨网络
3 环节，通常MQ存盘时都会先写入操作系统的缓存page cache中，然后再由操作系统异步的将消息写入硬盘。这个中间有个时间差，就可能会造成消息丢失。如果服务挂了，缓存中还没有来得及写入硬盘的消息就会丢失

RocketMQ 消息零丢失方案：

一. 消息发送端：生产者使用事务消息机制保证消息零丢失

RocketMQ的事务消息机制就是为了保证零丢失来设计的，并且经过阿里的验证，肯定是非常靠谱的

深入理解事务消息到底是不是靠谱

以电商订单场景为例，来简单分析下事务消息机制如何保证消息不丢失。我们看下下面这个流程图：
在这里插入图片描述

1.为什么要发送个half消息？有什么用？

这个half消息是在订单系统进行下单操作前发送，并且对下游服务的消费者是不可见的。那这个消息的作用更多的体现在确认RocketMQ的服务是否正常。相当于嗅探下RocketMQ服务是否正常，并且通知RocketMQ，我马上就要发一个很重要的消息了，你做好准备

2.half消息如果写入失败了怎么办？

如果没有half消息这个流程，那我们通常是会在订单系统中先完成下单，再发送消息给MQ。这时候写入消息到MQ如果失败就会非常尴尬了。而half消息如果写入失败，我们就可以认为MQ的服务是有问题的，这时，就不能通知下游服务了。我们可以在下单时给订单一个状态标记，然后等待MQ服务正常后再进行补偿操作，等MQ服务正常后重新下单通知下游服务

3.订单系统写数据库失败了怎么办？

这个问题我们同样比较下没有使用事务消息机制时会怎么办？如果没有使用事务消息，我们只能判断下单失败，抛出了异常，那就不往MQ发消息了，这样至少保证不会对下游服务进行错误的通知。但是这样的话，如果过一段时间数据库恢复过来了，这个消息就无法再次发送了。当然，也可以设计另外的补偿机制，例如将订单数据缓存起来，再启动一个线程定时尝试往数据库写。而如果使用事务消息机制，就可以有一种更优雅的方案

如果下单时，写数据库失败(可能是数据库崩了，需要等一段时间才能恢复)。那我们可以另外找个地方把订单消息先缓存起来(Redis、文本或者其他方式)，然后给RocketMQ返回一个UNKNOWN状态。这样RocketMQ就会过一段时间来回查事务状态。我们就可以在回查事务状态时再尝试把订单数据写入数据库，如果数据库这时候已经恢复了，那就能完整正常的下单，再继续后面的业务。这样这个订单的消息就不会因为数据库临时崩了而丢失

4.half消息写入成功后RocketMQ挂了怎么办？

我们需要注意下，在事务消息的处理机制中，未知状态的事务状态回查是由RocketMQ的Broker主动发起的。也就是说如果出现了这种情况，那RocketMQ就不会回调到事务消息中回查事务状态的服务。这时，我们就可以将订单一直标记为"新下单"的状态。而等RocketMQ恢复后，只要存储的消息没有丢失，RocketMQ就会再次继续状态回查的流程

5.下单成功后如何优雅的等待支付成功？

在订单场景下，通常会要求下单完成后，客户在一定时间内，例如10分钟，内完成订单支付，支付完成后才会通知下游服务进行进一步的营销补偿

如果不用事务消息，那通常会怎么办？

最简单的方式是启动一个定时任务，每隔一段时间扫描订单表，比对未支付的订单的下单时间，将超过时间的订单回收。这种方式显然是有很大问题的，需要定时扫描很庞大的一个订单信息，这对系统是个不小的压力

那更进一步的方案是什么呢？是不是就可以使用RocketMQ提供的延迟消息机制。往MQ发一个延迟1分钟的消息，消费到这个消息后去检查订单的支付状态，如果订单已经支付，就往下游发送下单的通知。而如果没有支付，就再发一个延迟1分钟的消息。最终在第十个消息时把订单回收。这个方案就不用对全部的订单表进行扫描，而只需要每次处理一个单独的订单消息

那如果使用上了事务消息呢？我们就可以用事务消息的状态回查机制来替代定时的任务。在下单时，给Broker返回一个UNKNOWN的未知状态。而在状态回查的方法中去查询订单的支付状态。这样整个业务逻辑就会简单很多。我们只需要配置RocketMQ中的事务消息回查次数(默认15次)和事务回查间隔时间(messageDelayLevel)，就可以更优雅的完成这个支付状态检查的需求

6. 事务消息机制的作用

整体来说，在订单这个场景下，消息不丢失的问题实际上就还是转化成了下单这个业务与下游服务的业务的分布式事务一致性问题。而事务一致性问题一直以来都是一个非常复杂的问题。而RocketMQ的事务消息机制，实际上只保证了整个事务消息的一半，他保证的是订单系统下单和发消息这两个事件的事务一致性，而对下游服务的事务并没有保证。但是即便如此，也是分布式事务的一个很好的降级方案。目前来看，也是业内最好的降级方案

二. 消息消费端： RocketMQ配置同步刷盘+Dledger主从架构保证MQ主从同步时不会丢消息

消费者端都是需要先处理本地事务，然后再给MQ一个ACK响应，这时MQ就会修改Offset，将消息标记为已消费，从而不再往其他消费者推送消息。所以在Broker的这种重新推送机制下，消息是不会在传输过程中丢失的

三. 消息持久化： RocketMQ配置同步刷盘+Dledger主从架构保证MQ主从同步时不会丢消息

1、同步刷盘

可以简单的把RocketMQ的刷盘方式 flushDiskType配置成同步刷盘

conf/broker.conf

#Broker 的角色 (kafka 用的是  0,1,-1/all)
#- ASYNC_MASTER 异步复制Master
#- SYNC_MASTER 同步双写Master
#- SLAVE
brokerRole=SYNC_MASTER
#刷盘方式
#- ASYNC_FLUSH 异步刷盘
#- SYNC_FLUSH 同步刷盘
flushDiskType=SYNC_FLUSH

2、Dledger的文件同步 两阶段提交的方式保证文件在主从之间成功同步

数据同步会通过两个阶段，一个是uncommitted阶段，一个是commited阶段

Leader Broker上的Dledger收到一条数据后，会标记为uncommitted状态
DledgerServer组件把这个uncommitted数据发给Follower Broker的DledgerServer组件
Follower Broker的DledgerServer收到uncommitted消息, 返回一个ack给Leader Broker的Dledger
Leader Broker收到超过半数的Follower Broker返回的ack之后，就会把消息标记为committed状态
Leader Broker上的DledgerServer就会发送committed消息给Follower Broker上的DledgerServer

四. RocketMQ特有的问题，NameServer挂了如何保证消息不丢失？

NameServer在RocketMQ中，是扮演的一个路由中心的角色，提供到Broker的路由功能。但是其实路由中心这样的功能，在所有的MQ中都是需要的。kafka是用zookeeper和一个作为Controller的Broker一起来提供路由服务，整个功能是相当复杂纠结的。而RabbitMQ是由每一个Broker来提供路由服务。而只有RocketMQ把这个路由中心单独抽取了出来，并独立部署。

这个NameServer之前都了解过，集群中任意多的节点挂掉，都不会影响他提供的路由功能。那如果集群中所有的NameServer节点都挂了呢？

有很多人就会认为在生产者和消费者中都会有全部路由信息的缓存副本，那整个服务可以正常工作一段时间。其实这个问题大家可以做一下实验，当NameServer全部挂了后，生产者和消费者是立即就无法工作了的。至于为什么，可以去源码中找找答案。

那再回到我们的消息不丢失的问题，在这种情况下，RocketMQ相当于整个服务都不可用了，那他本身肯定无法给我们保证消息不丢失了。我们只能自己设计一个降级方案来处理这个问题了。例如在订单系统中，如果多次尝试发送RocketMQ不成功，那就只能另外找给地方(Redis、文件或者内存等)把订单消息缓存下来，然后起一个线程定时的扫描这些失败的订单消息，尝试往RocketMQ发送。这样等RocketMQ的服务恢复过来后，就能第一时间把这些消息重新发送出去。整个这套降级的机制，在大型互联网项目中，都是必须要有的。

五. RocketMQ消息零丢失方案总结

生产者使用事务消息机制
Broker配置同步刷盘+Dledger主从架构
消费者不要使用异步消费
整个MQ挂了之后准备降级方案

那这套方案是不是就很完美呢？其实很明显，这整套的消息零丢失方案，在各个环节都大量的降低了系统的处理性能以及吞吐量。在很多场景下，这套方案带来的性能损失的代价可能远远大于部分消息丢失的代价。所以，我们在设计RocketMQ使用方案时，要根据实际的业务情况来考虑。例如，如果针对所有服务器都在同一个机房的场景，完全可以把Broker配置成异步刷盘来提升吞吐量。而在有些对消息可靠性要求没有那么高的场景，在生产者端就可以采用其他一些更简单的方案来提升吞吐，而采用定时对账、补偿的机制来提高消息的可靠性。而如果消费者不需要进行消息存盘，那使用异步消费的机制带来的性能提升也是非常显著的

二、RocketMQ 如何保证消息顺序？

MQ的顺序问题分为全局有序和局部有序

全局有序：整个MQ系统的所有消息严格按照队列先入先出顺序进行消费
局部有序：只保证一部分关键消息的消费顺序

分析全局有序和局部有序哪个更重要？
大部分的MQ业务场景，我们只需要能够保证局部有序就可以 — 订单、QQ
RocketMQ 通常情况下，发送者发送消息时，会通过MessageQueue轮询的方式保证消息尽量均匀的分布到所有的MessageQueue上，而消费者也就同样需要从多个MessageQueue上消费消息。而MessageQueue是RocketMQ存储消息的最小单元，他们之间的消息都是互相隔离的，在这种情况下，是无法保证消息全局有序的
通常所谓的保证Topic全局消息有序的方式，就是将Topic配置成只有一个MessageQueue队列(默认是4个)，这种方式对整个Topic的消息吞吐影响是非常大

RocketMQ就是保证的消息局部有序，而不是全局有序

SendResult sendResult = producer.send(msg, new MessageQueueSelector() {....}, orderId);
consumer.registerMessageListener(new MessageListenerOrderly() {...});

三、RocketMQ如何快速处理积压消息？

对于消息积压，如果是RocketMQ或者kafka还好，他们的消息积压不会对性能造成很大的影响。而如果是RabbitMQ的话，那就惨了，大量的消息积压可以瞬间造成性能直线下滑

1、如何确定RocketMQ有大量的消息积压？

web控制台
mqadmin指令在后台检查各个Topic的消息延迟情况
${storePathRootDir}/config 目录下落地一系列的json文件，也可以用来跟踪消息积压情况

2、如何处理大量积压的消息？

MessageQueue配置得是足够多：增加Consumer的服务节点数量，等积压消息消费完了，再恢复成正常情况（Consumer的节点个数 == MessageQueue的个数）
MessageQueue配置得不够多：创建一个新的Topic，配置足够多的MessageQueue，把所有消费者节点的目标Topic转向新的Topic，并紧急上线一组新的消费者，只负责消费旧Topic中的消息，并转储到新的Topic中，之后再根据情况恢复成正常情况

在官网中，还分析了一个特殊的情况。就是如果RocketMQ原本是采用的普通方式搭建主从架构，而现在想要中途改为使用Dledger高可用集群，这时候如果不想历史消息丢失，就需要先将消息进行对齐，也就是要消费者把所有的消息都消费完，再来切换主从架构。因为Dledger集群会接管RocketMQ原有的CommitLog日志，所以切换主从架构时，如果有消息没有消费完，这些消息是存在旧的CommitLog中的，就无法再进行消费了。这个场景下也是需要尽快的处理掉积压的消息。

RocketMQ的消息轨迹

开启消息轨迹功能 traceTopicEnable=true
客户端打开消息轨迹 enableMsgTrace

1、RocketMQ消息轨迹数据的关键属性：

Producer端	Consumer端	Broker端
生产实例信息	消费实例信息	消息的Topic
发送消息时间	投递时间,投递轮次	消息存储位置
消息是否发送成功	消息是否消费成功	消息的Key值
发送耗时	消费耗时	消息的Tag值

2、消息轨迹配置默认关闭
打开消息轨迹功能 broker.conf traceTopicEnable=true

3、消息轨迹数据存储
默认情况下，消息轨迹数据是存于一个系统级别的Topic ,RMQ_SYS_TRACE_TOPIC。这个Topic在Broker节点启动时，会自动创建出来。

4、也支持客户端自定义轨迹数据存储的Topic

在客户端的两个核心对象 DefaultMQProducer和DefaultMQPushConsumer，他们的构造函数中，都有两个可选的参数来打开消息轨迹存储

enableMsgTrace：是否打开消息轨迹。默认是false。
customizedTraceTopic：配置将消息轨迹数据存储到用户指定的Topic

在这里插入图片描述

Men-DD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
分布式中间件（三）：RocketMQ 提问

RocketMQ的事务消息机制就是为了保证零丢失来设计的，并且经过阿里的验证，肯定是非常靠谱的深入理解事务消息到底是不是靠谱以电商订单场景为例，来简单分析下事务消息机制如何保证消息不丢失。我们看下下面这个流程图：这个half消息是在订单系统进行下单操作前发送，并且对下游服务的消费者是不可见的。那这个消息的作用更多的体现在确认RocketMQ的服务是否正常。相当于嗅探下RocketMQ服务是否正常，并且通知RocketMQ，我马上就要发一个很重要的消息了，你做好准备如果没有half消息这个流程，那我们通常是
复制链接

扫一扫