踩坑日志 - 记录一次因Druid 1.1.22版本Bug造成服务性能受损的排查过程
现象某个下午,某个服务的测试环境突然出现大量接口延时告警,从监控上看,接口p99耗时基本都达到了5s以上,而且接口延时越来越长随着业务方的不断超时重试,数据库线程被打满,等待线程数飙高,大量线程阻塞初步排查过程1、通过APM链路监控,我们发现所有链路的主要耗时都集中在了DataSource#getConnection这个过程中2、初步怀疑,可能是因为存在SQL 慢查询导致,但后来发现根因并不在此,因为监控显示,当时最慢的SQL99线是56.99ms,qps低于0.01(基本可以排除SQL慢查
原创
2021-06-06 17:25:49 ·
2538 阅读 ·
3 评论