一 、故障原因:
服务器突然出现大量time_wait(因为大量连接资源被占用后不释放的话,会导致网站正常访问不能响应)。如何应对?
我这边先检查了监控和服务器当前的状态(time_wait连接确实异常):
1、监控
2、登录服务器检查
二、排查思路:
1、猜测是否因为程序打开大量文件句柄,没有关闭导致。(问了研发同事,排查过后没有这种情况)
2、调大当前文件句柄
3、调优sysctl.conf文件
4、检查nginx连接情况
三、解决方法:
1、操作系统文件句柄之前已经调整过。
echo "ulimit -SHn 66536" >>/etc/rc.local
2、调优/etc/sysctl.conf
net.ipv4.tcp_syncookies &