消费系统故障导致的RocketMQ百万消息积压问题，应该如何处理

最新推荐文章于 2024-06-18 14:11:29 发布

程序员 Hasity

最新推荐文章于 2024-06-18 14:11:29 发布

阅读量530

点赞数 7

分类专栏： RocketMQ 文章标签： java-rocketmq rocketmq java

本文链接：https://blog.csdn.net/qq_52416556/article/details/139117012

版权

RocketMQ 专栏收录该内容

1 篇文章 1 订阅

订阅专栏

消费系统故障导致的RocketMQ百万消息积压问题，应该如何处理

在一个充满挑战的生产环境中，我们的系统由两个核心组件组成：勤勉的生产者和敬业的消费者。生产者负责源源不断地将消息存入RocketMQ的仓库，而消费者则负责从这个仓库中提取消息，并借助NoSQL数据库的强大功能来执行复杂的业务逻辑。

在生产环境中，系统会经历高峰和低谷。在某个繁忙的夜晚，我们见证了一个高峰，数百万条消息涌入RocketMQ。然而，就在这时，一个意外发生了：消费者系统所依赖的NoSQL数据库突然崩溃，导致消费者无法继续其工作，仿佛时间静止，无法从MQ中消费和处理数据。尽管如此，生产者在这段时间内仍然不知疲倦地向MQ中注入了数百万条消息，这些消息就这样被无情地积压起来。

面对这种紧急的线上事故，我们有几种策略可以迅速应对：

消息的快速处理：如果允许消息丢失，我们可以迅速修改消费者的代码，让它在捕获到每条消息时，不做任何处理，直接将其丢弃。这是一种快速清理积压消息的方法，尽管有些残酷。

等待与恢复：对于不能丢失的消息，我们通常需要耐心等待，直到消费者系统底层依赖的NoSQL数据库恢复健康。一旦数据库恢复，我们可以根据线上Topic的MessageQueue数量来制定后续的处理计划。

扩展的援手：假设我们的Topic拥有20个MessageQueue，而我们只有4个消费者在工作，每个消费者需要处理5个MessageQueue的消息。面对百万消息的积压，显然这4个消费者是力不从心的。此时，我们可以临时申请16台机器，部署16个额外的消费者实例，使得总共有20个消费者同时工作，每人负责一个MessageQueue。这样，我们的消费速度就能提高5倍，积压的消息很快就会被清理完毕。

数据库的压力管理：在扩容消费者的同时，我们必须确保NoSQL数据库能够承受临时增加的5倍读写压力，因为原来只有4个消费者在读写数据库，现在临时变成了20个。

消息的重定向：如果Topic只有4个MessageQueue，而我们只有4个消费者系统，那么我们无法通过增加消费者来提高并行处理能力。此时，我们可以临时修改这4个消费者的代码，让它们在捕获到消息后，不写入NoSQL，而是直接将消息写入一个新的Topic。

新的Topic和消费者：为新的Topic创建更多的MessageQueue，并部署相应数量的消费者实例来消费这些消息并写入NoSQL数据库，以提高处理能力，使用一个新的Topic来允许更多的消费者系统并行处理。

通过这些策略，我们可以有效地应对紧急的线上事故，确保系统的稳定运行和业务的连续性。

程序员 Hasity

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
消费系统故障导致的RocketMQ百万消息积压问题，应该如何处理

此时，我们可以临时修改这4个消费者的代码，让它们在捕获到消息后，不写入NoSQL，而是直接将消息写入一个新的Topic。新的Topic和消费者：为新的Topic创建更多的MessageQueue，并部署相应数量的消费者实例来消费这些消息并写入NoSQL数据库，以提高处理能力，使用一个新的Topic来允许更多的消费者系统并行处理。数据库的压力管理：在扩容消费者的同时，我们必须确保NoSQL数据库能够承受临时增加的5倍读写压力，因为原来只有4个消费者在读写数据库，现在临时变成了20个。
复制链接

扫一扫