现象
线上某Pulsar Topic一直处于积压7000-8000的消息量,同事经过增加机器、消费者数量会略微减轻一些量。
排查
观察消息订阅者,集群启动两个相同的服务,每个服务的消费者数量是4,但是消费者列表里有16个,其中8个属于集群启动的两个服务,另外8个的ip不知是哪一台的ip,
经过对集群中的两个服务增减,发现另外8个相同ip的消费者巍然不动,怀疑是另外8个消费者拉取了消息但是消费的又慢导致的消息积压,Pulsar consumer默认拉取1000个消息,8个正好8k,和积压的数量接近,
后续排查是因为pre的环境也连接上了prod的topic,但是pre的消费者拿到数据后,代码又控制不消费,也不ack,消息就一直积压阻塞着,出现了问题。