记一次线上故障排查

博客内容讲述了在服务器出现接口请求延迟和MQTT返回超时的问题后,通过排查日志发现是由于数据库连接池耗尽导致的。进一步分析发现一个带有forupdate的SQL查询因外部接口注册过程延迟,在事务中引起锁等待,加剧了延迟现象。解决方案是优化SQL查询,避免长时间加锁,并处理注册错误重试逻辑,以减少并发压力。
摘要由CSDN通过智能技术生成

接客户及前端同学报告,服务器部分接口请求及MQTT返回有很大延迟及请求超时的现象.自测部分接口有30秒左右延迟.

故障排查:

查询项目错误日志,发现报错:

Connection is not available, request timed out after 30000ms.

初步判断数据库连接池用完了,导致接口中数据库查询线程堆积.以及MQTT处理器线程池耗完.

对策:将数据库连接池最大数量扩大十倍:

spring.datasource.maxActive = 200

服务重启后,过了一会请求又开始变慢.

查询服务器负载资源及数据库资源,均未到达瓶颈.并尝试扩容集群数,也未能解决问题.

故判断是数据库查询过慢导致.

打开druid数据库监控,发现有一个慢查询,时间要近10秒.导致数据库连接池资源被耗光.进而导致所有数据库查询的请求以及mqtt消息排队很久.

分析该sql语句,是一个for update的sql查询.会给表加锁.且该查询与后面的insert之间,有一个访问网易接口注册的过程.该接口返回会有一定延时.而整个过程都在一个事务内,导致数据库加锁时间较长.后续for update获取锁时要等待之前的锁释放,并发量高时会导致查询排队,从而变成慢查询.

至此请求超时的技术原因定位到了.

但是,这个注册接口正常情况下并发量应该不高,但是之前某些账号注册时插入数据库失败,导致这部分账号已在网易注册却没有入库,注册时一直抛出"already register"错误,前端又对抛错的请求不停做频繁重试,导致进入注册逻辑的并发量很高.

解决:优化慢查询.

在做加锁sql请求(for update)前,先做一个普通sql查询,判断要insert后再做加锁的sql.或将事务加在对外http请求之后.

并且对注册时抛出"already register"错误做逻辑处理,防止错误后不停请求.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值