一、问题现象
一个需要通过消费MQ导入200w数据量的项目。在项目上线前一天,在QA环境对MQ消费进行压测,发现消费链路异常的长,导致整体消费速率过慢。
因为本身已经用sentinel对MQ消费做了限流,限流速率又正好和这个缓慢的速度差不多,所以一直没发现MQ消费本身就过慢:tw-1f605:。
二、排查过程
1.在解除sentinel限流之后发现MQ依然龟速消费,一开始怀疑是不是sentinel限流控制有延迟,又或者我们公司中间件有其他对mq消费的默认限速。在重启服务和询问中间件相关同事后确认应该不是限流导致的问题。
2.怀疑自己代码拉垮了(常有的事~),于是去查具体的消费链路,一看还真是。
但是公司的监控系统只会在rpc调用、数据源访问上打点,可是看链路,这些都没啥异常,那这个将近4000ms的时间到底耗费在哪里了呢?
3.搬出神器,鼎鼎大名的Arthas,用来诊断java程序各种问题。在容器里安装启动Arthas后,复现了MQ消费的场景,然后trace咱们的消费方法发现:
竟然是释放锁超时了。