服务超时问题

最新推荐文章于 2021-08-17 15:39:44 发布

jiangxiaoma111

最新推荐文章于 2021-08-17 15:39:44 发布

阅读量2.1k

点赞数

分类专栏：案例文章标签： java redis 高并发

本文链接：https://blog.csdn.net/jiangxiaoma111/article/details/104443356

版权

案例专栏收录该内容

0 篇文章 0 订阅

订阅专栏

背景

上游一个服务在调用我们服务的时候突然出现了大量的超时。首先怀疑的是docker机器又挂掉了，然后看了下服务的调用量监控,如下图。
在这里插入图片描述

从图中可以看出服务是在某个时间点突然没有任何流量（或者是服务本身问题导致不能上报监控指标）了。

服务之间是通过thrift进行通信的，thrift server的工作模式为TThreadedSelectorServer。

问题排查

首先是登录到服务器上验证docker是否正常或者服务是否存活。随机找了几台服务节点，发现docker和服务进程都存活着，说明可能是服务本身出问题了。

使用tail -f error.log查看服务的错误日志，观察到一直在出现大量的异常。
而且这个异常的出现时间点和监控出现异常的时间点相吻合。这会导致响应客户端请求的时间增长，导致客户端请求超时从而关闭连接。

java.util.NoSuchElementException: Timeout waiting for idle object
at org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:448)
at org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:362)

通过 netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 查看对应端口的网络连接情况，单台服务器上有八万多个close_wait 连接。

查看tcp状态转换图可知客户端一直大量的新建连接和关闭连接，并且服务端没来得及处理关闭连接事件(调用close()方法)导致服务端出现了大量的close_wait。

大量close_wait造成的影响

由于close_wait是系统层面的问题，比问题1容易定位些，所以先分析下问题2。

8万的close_wait连接说明服务进程中至少同时接收了8万个客户端的连接，其能造成的影响大致有以下几点：

连接不停的创建和关闭，会增大创建tcp连接的耗时
过多的tcp连接会占用一定的内存，如果还在服务器内存不够时，还会压垮整个服务器。单个连接占用情况可参考文章
服务处理tcp连接的线程模型会决定此服务是否能处理这么多的连接。由于服务使用的是nio来处理网络连接，处理接收连接和关闭连接事件是在单独的线程池，与处理业务逻辑的请求是隔离的，所以这个问题的只是影响了网络连接这块的，当前的这个服务来说不算特别大。