接客户及前端同学报告,服务器部分接口请求及MQTT返回有很大延迟及请求超时的现象.自测部分接口有30秒左右延迟.
故障排查:
查询项目错误日志,发现报错:
Connection is not available, request timed out after 30000ms.
初步判断数据库连接池用完了,导致接口中数据库查询线程堆积.以及MQTT处理器线程池耗完.
对策:将数据库连接池最大数量扩大十倍:
spring.datasource.maxActive = 200
服务重启后,过了一会请求又开始变慢.
查询服务器负载资源及数据库资源,均未到达瓶颈.并尝试扩容集群数,也未能解决问题.
故判断是数据库查询过慢导致.
打开druid数据库监控,发现有一个慢查询,时间要近10秒.导致数据库连接池资源被耗光.进而导致所有数据库查询的请求以及mqtt消息排队很久.
分析该sql语句,是一个for update的sql查询.会给表加锁.且该查询与后面的insert之间,有一个访问网易接口注册的过程.该接口返回会有一定延时.而整个过程都在一个事务内,导致数据库加锁时间较长.后续for update获取锁时要等待之前的锁释放,并发量高时会导致查询排队,从而变成慢查询.
至此请求超时的技术原因定位到了.
但是,这个注册接口正常情况下并发量应该不高,但是之前某些账号注册时插入数据库失败,导致这部分账号已在网易注册却没有入库,注册时一直抛出"already register"错误,前端又对抛错的请求不停做频繁重试,导致进入注册逻辑的并发量很高.
解决:优化慢查询.
在做加锁sql请求(for update)前,先做一个普通sql查询,判断要insert后再做加锁的sql.或将事务加在对外http请求之后.
并且对注册时抛出"already register"错误做逻辑处理,防止错误后不停请求.