前言
起因是最近做的一个历史遗留项目,需要加些新需求,在本机进行压测时,发现在并发600的状态下跑一段时间后,就会开始偶现500的错误。可能是老项目用的人少(B2B的项目),实际部署后以前也没有人反馈过这个问题,大致跟踪了下日志,发现是系统在调用第三方服务出现异常,这种情况原因很多,需要仔细看异常堆栈打出来的Exception信息,将问题范围缩小并求证,这次抛出的是java.net.SocketException: Too many open files。表明服务器上开启了过多socket句柄,超上限了(一般是1024),这种情况下是无法建立新的网络连接的。
排查
经验丰富的程序员这个时候会调用一下netstat命令(压测不能间断),发现有大量的TCP链接处于ESTABLISHED状态,也有少部分CLOSE-WAIT状态的TCP链接。再继续走源码,remote调用部分因为代码过老,用的是org.apache.commons.httpclient.HttpClient,每次调用都会new一个新的实例进行链接。
try {
client.executeMethod(method);
byte[] responseBody = null;
responseBody = method.getResponseBody();
} catch (HttpException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated