背景
最近工作中遇到了一个问题,比较奇怪,生产环境上各个服务的请求均正常,但是有一个服务A,只要启动后,经过一段时间,再去通过浏览器访问这个服务的页面,就会一直转圈圈,此时这个服务的actuator接口是正常的,需要重启zuul就能恢复正常,但F5一会这个A服务的页面,就又会卡死,神奇的是,同样的服务A和Zuul网关版本,在不同的环境上,有时会出现,有时不出现,甚至后来问题的现象从单个服务A的不可用,变成了整个系统的无响应,让人非常困扰。
第一次定位
针对服务A启动后一段时间卡死的现象进行定位分析,网关重启后即恢复正常,在网关日志、服务A日志均无看到明显的和请求阻塞相关的异常,包括超时异常等。因此在卡顿出现的情况下,导出了一份jstack,发现了线程的阻塞。
阻塞的线程个数刚好等于hystrix对每个服务开启的线程池个数50,也就是所有通过zuul转发向服务A的请求,均被锁住,因此请求无法正常返回,一直等待。
此时在机器上进行netstat观测,发现了50个服务A端口上的CLOSE_WAIT,而