1,环境介绍
二台交易服务器,通过nginx接收内部路由调用
3台金服服务器,处理消费对账,由nginx的均衡路由内部请求
服务器都为阿里云的,配置32G+1T +4核
高峰时,每秒的并发请求100+
2,问题描述
简单的一个由交易系统发出的 Java 对象的HttpURLConnection 请求
目标地址为金服服务器
1个小时偶尔有10几单,耗时10s+,请求地址走的内网ip
3,自查
服务器的cup、内存、带宽、磁盘、线程使用数、gc都在正常范围
日志打印如下
/========================================
已排查到问题,看到日志的情况确实是请求出去比较慢,到达nginx的时间有是在很久之后才到的,
可是忽视了,nginx的日志打印问题,到达第三方交易的时间,无法得知,现定位到的问题是,金服系统有部分服务出现的假死,无法提供服务,造成了多个请求被阻塞了!修复了假死的应用后,服务已恢复正常!