背景
负责的自定义查询系统,使用了rabbitMQ,来实现异步查询。
即web端查询,先提交到消息队列,同时发起轮询请求拉取查询结果;
多进程消费者从消息队列中取消息,触发查询引擎查询;
查询引擎响应后,产出文件到服务端;此时web端轮询请求,获取到响应,完成本次查询。
问题
系统运行过程中,性能很差,偶发卡顿现象;需要人为干预,杀死查询process才能保证系统正常。
定位过程
(1)以为是系统用户,看到不出结果,反复提交相同sql;
(2)sql查询处,加了查询态不允许提交的前端限制,仍然有重复sql提交到gp;
(3)后来发现,平台提交了一次,查询引擎处有多条sql执行;
(4)然后锁定了问题范围,“web服务多次提交到mq”或者“mq消息多次消费”;
(5)分析消费者代码和日志,发现mq连接隔一段时间,会断开连接;
#伪日志
Pid: 29354, Start Watching Rabbitmq
Pid: 29354, receive msg[body:xxx][userName:xxx]
Pid: 29354, receive msg[body:xxx][userName:xxx]
Pid: 29354, Rabbitmq connection closed, reconnecting…
Pid: 29354, Start Watching Rabbitmq
…
(6)然后定位到rabbitmq-server因为连接没有心跳,主动断开了和消费者的连接。
#/var/log/rabbitmq处mq-server运行日志
2020-03-06 17:43:01.762 [error] <0.14871.1> closing AMQP connection <0.14871.1> (10.xxx.x.xxx:port1 -> 10.xxx.x.xxx:port2):
missed heartbeats from client, timeout: 60s
解决
从网上找了一些资料,之所以出现这种情况,是使用 python pika方式获取mq连接(pika.BlockingConnection),消费时间过长导致的。
主要有两种思路解决这个问题:
(1)加heartbeat_interval参数,防止mq-server因为没有心跳而主动断开连接;
(2)调整代码逻辑,消费者主线程定时发心跳交互(connection.process_data_events()),耗时较长的消息消费,在子线程中执行。
我们采用了第一种方式,加heartbeat参数,最终解决了这个问题。
在获取mq连接过程中,加了不检测心跳的参数。后续自动连接断开问题消除。
pika.BlockingConnection(pika.ConnectionParameters(host=mqhost))
#改成
pika.BlockingConnection(pika.ConnectionParameters(host=mqhost,heartbeat_interval=0))
相关资料
本文记录了一个系统性能下降和偶发卡顿的问题排查过程。问题源于web服务多次提交到RabbitMQ消息队列,导致消费者处理消息时连接断开。通过分析日志发现是由于连接心跳缺失,RabbitMQ主动关闭了连接。解决方案是通过设置heartbeat_interval参数或在消费者主线程发送心跳。最终采用设置心跳间隔为0的方式解决了自动断开问题,提升了系统稳定性。
4368

被折叠的 条评论
为什么被折叠?



