RabbitMQ版本:
RabbitMQ 3.6.8, Erlang 19.0.4
jar包版本:
spring-boot-starter-amqp 2.0.4.RELEASE
问题背景:
之前线上服务曾经出现MQ重启之后,服务不消费队列消息,其具体表现为Queue没有Consumer。但是当时没有拿到日志,并且本着对RabbitMQ这类
中间件的信任,也并没有去做过多的深入研究,觉得是极其偶然事件。但是今天上午线上某个服务的RabbitMQ由于不知名原因重启,导致出现同样现象。
该服务目前一共监听4个队列,暂时用Queue1,Queue2,Queue3,Queue4代替。
在MQ恢复之后只有Queue2,Queue3两个队列正常消费,而另外两个队列则出现消息堆积情况。
排查过程:
首先查看Queue1,Queue4队列的消费者,发现消费者数量为0,表示当前队列没有消费者,但是Queue2,Queue3正常。检查服务代码4个队列除了消费逻辑
其余代码均一致,只调用了Spring提供的接口方法。
至此初步猜测是spring中rabbitMQ消费者线程错误恢复异常导致,部分消费者线程没有启动。
遂分析重启消费者线程源码源码:
RabbitMQ的RabbitListner监听队列是通过SimpleMessageListenerContainer实现的,当线程执行出现异常时会重新启动具体工作线程AsyncMessageProcessingConsumer,当执行到异常时会执行
{
//由此发现consumer的重启逻辑是有参数aborted控制
if (!isActive(this.consumer) || aborted) {
//省略其余代码
this.consumer.stop();
//省略其余代码
}else{
logger.info("Restarting " + this.consumer);
//重启逻辑,是通过新启线程实现