今天进行服务压测的时候,A服务的接口会根据传参调用下游的B服务或C服务,压测发现调用B服务的时候吞吐量在4K TPS,但是调用C服务的时候TPS却只有几十。
1、排查业务代码调用C服务的逻辑发现并不复杂
2、排查C服务的服务器的负载,数据库的负载发现都处于极低的水平,没有慢SQL
3、排查打印C服务的堆栈,发现大量的线程处于TIMED_WAITING的状态,怀疑线程池的配置问题
4、排查数据库线程池的配置,发现没有问题。打开Druid的监控,发现池中连接数、池中连接数峰值 、活跃连接数峰值正常,与预期一致。但是等待次数 、事务启动数远超预期,并且压测的是GET请求,不应该有事务,断定是事务引起的线程等待
5、排查项目配置的事务,确实查询请求加上事务,去掉对应的事务,重复压测,发现一切正常
记一次压测问题排查过程
最新推荐文章于 2023-12-07 14:10:18 发布