问题1:太多无效的ESTABLISHED 连接
Tomcat服务器运行一段时间就登录不进去了!
用ssh连接到服务器以后做下面的操作
Step1:查看系统负载是不是太大了,给hang住了
# top
top - 21:43:23 up 59 days, 18:39, 1 user, load average: 0.02, 0.05, 0.01 //负载一点都不高!
Tasks: 163 total, 1 running, 162 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.1%sy, 0.0%ni, 99.8%id, 0.2%wa, 0.0%hi, 0.0%si, 0.0%st
Step2:查看8443端口是否启动
# netstat -natp |grep 8443
tcp 0 0 :::8443 :::* LISTEN 21932/java
Step3:发现有许多ESTABLISHED状态!
# netstat -natp |grep ESTABLISHED
tcp 0 0 ::ffff: 192.168.22.61:8443 ::ffff:116.227.157.17:3759 ESTABLISHED 16578/java
tcp 0 0 ::ffff: 192.168.22.61:8443 ::ffff:118.126.10.10:1213 ESTABLISHED 16578/java
tcp 0 0 ::ffff: 192.168.22.61:8443 ::ffff:192.168.22.55:3542 ESTABLISHED 16578/java
Step4:统计一下有多少个ESTABLISHED连接
# netstat -natp |grep ESTABLISHED |wc -l
549
Step5:统计一下到8443端口的ESTABLISHED连接数
# netstat -natp |grep ESTABLISHED |grep 8443|wc -l
507
呵呵,发现有很多ESTANBLISH状态存在,但是现在是下班时间啊,不应该有这么多session的呀!于是找了几个客户机的ip地址ping了下,结果不通!至此可以判断是tomcat服务器回收session时出了问题。这个一般跟服务器的Timeout设置有关!
# ping 192.168.22.55
PING 192.168.22.55 (192.168.22.55) 56(84) bytes of data.
From 192.168.22.61 icmp_seq=1 Destination Host Unreachable
From 192.168.22.61 icmp_seq=2 Destination Host Unreachable
Step6:于是查看tomcat的配置文件 server.xml
将connectionTimeout="20000" 改为 connectionTimeout="100"
acceptCount="100" 改为 acceptCount="5000"
说明一下,其实20000毫秒也没什么不对,杯具在于20000毫秒的时候acceptCount=”100” !
# cat /usr/local/pkg/Tomcat/conf/server.xml
<Service className="org.apache.catalina.core.StandardService" debug="0" name="Tomcat-Standalone">
<Connector className="org.apache.coyote.tomcat4.CoyoteConnector" acceptCount="5000" bufferSize="2048" connectionTimeout="100" debug="0" disableUploadTimeout="true" enableLookups="true" maxProcessors="500" minProcessors="50" port="80" protocolHandlerClassName="org.apache.coyote.http11.Http11Protocol" proxyPort="0" redirectPort="8443" scheme="http" secure="false" tcpNoDelay="true" useURIValidationHack="false">
<Factory className="org.apache.catalina.net.DefaultServerSocketFactory"/>
</Connector> <Connector className="org.apache.coyote.tomcat4.CoyoteConnector" acceptCount="5000" bufferSize="2048" connectionTimeout="100" debug="0" disableUploadTimeout="true" enableLookups="true" maxProcessors="500" minProcessors="50" port="8443" protocolHandlerClassName="org.apache.coyote.http11.Http11Protocol" proxyPort="0" redirectPort="443" scheme="https" secure="true" tcpNoDelay="true" useURIValidationHack="false"> <Factory className="org.apache.coyote.tomcat4.CoyoteServerSocketFactory" clientAuth="false" keystoreFile="/usr/local/pkg/Tomcat/conf/tomcat.keystore" keystorePass="123456" keystoreType="PKCS12" protocol="TLS" randomFile="/root/random.pem" rootFile="/root/root.pem"/>
问题2:Time_Wait
解决上面的问题后又发现有许多Time_Wait存在。google了一下发现下面这篇佳文,但是不知道原文出自哪里。。。所以就不说出处了。。
这篇文章有以下几个亮点
亮点1:awk编程一例
Time_Wait是个古老的问题!
# netstat -n|awk '/^tcp/{++State[$NF]} END {for(a in State) print a,”\t”,State[a]}'
LAST_ACK 14
SYN_RECV 348
ESTABLISHED 70
FIN_WAIT1 229
FIN_WAIT2 30
CLOSING 33
TIME_WAIT 18122
亮点2:netstat –natp 输出结果State列的详细说明
状态:描述
CLOSED:无连接是活动的或正在进行
LISTEN:服务器在等待进入呼叫
SYN_RECV:一个连接请求已经到达,等待确认
SYN_SENT:应用已经开始,打开一个连接
ESTABLISHED:正常数据传输状态
FIN_WAIT1:应用说它已经完成
FIN_WAIT2:另一边已同意释放
ITMED_WAIT:等待所有分组死掉
CLOSING:两边同时尝试关闭
TIME_WAIT:另一边已初始化一个释放
LAST_ACK:等待所有分组死掉
也就是说,这条命令可以把当前系统的网络连接状态分类汇总。
下面解释一下为啥要这样写:
一个简单的管道符连接了netstat和awk命令。
先来看看netstat:
#netstat -natp
Active Internet connections (w/o servers)
Proto Recv-Q Send-Q Local Address Foreign Address State
tcp 0 0 123.123.123.123:80 234.234.234.234:12345 TIME_WAIT
你实际执行这条命令的时候,可能会得到成千上万条类似上面的记录,不过我们就拿其中的一条就足够了。
再来看看awk:
/^tcp/
滤出tcp开头的记录,屏蔽udp, socket等无关记录。
state[]
相当于定义了一个名叫state的数组
NF
表示记录的字段数,如上所示的记录,NF等于6
$NF
表示某个字段的值,如上所示的记录,$NF也就是$6,表示第6个字段的值,也就是TIME_WAIT
state[$NF]
表示数组元素的值,如上所示的记录,就是state[TIME_WAIT]状态的连接数
++state[$NF]
表示把某个数加一,如上所示的记录,就是把state[TIME_WAIT]状态的连接数加一
END
表示在最后阶段要执行的命令
for(key in state)
遍历数组
print key,”\t”,state[key]
打印数组的键和值,中间用\t制表符分割,美化一下。
如发现系统存在大量TIME_WAIT状态的连接,通过调整内核参数解决,
vim /etc/sysctl.conf
编辑文件,加入以下内容:
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_fin_timeout = 30
然后执行 /sbin/sysctl -p 让参数生效。
net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_fin_timeout 修改系統默认的 TIMEOUT 时间
下面附上TIME_WAIT状态的意义:
客户端与服务器端建立TCP/IP连接后关闭SOCKET后,服务器端连接的端口
状态为TIME_WAIT
是不是所有执行主动关闭的socket都会进入TIME_WAIT状态呢?
有没有什么情况使主动关闭的socket直接进入CLOSED状态呢?
主动关闭的一方在发送最后一个 ack 后
就会进入 TIME_WAIT 状态 停留2MSL(max segment lifetime)时间
这个是TCP/IP必不可少的,也就是“解决”不了的。
也就是TCP/IP设计者本来是这么设计的
TIME_WAIT状态的主要作用:
1。防止上一次连接中的包,迷路后重新出现,影响新连接
(经过2MSL,上一次连接中所有的重复包都会消失)
2。可靠的关闭TCP连接
在主动关闭方发送的最后一个 ack(fin) ,有可能丢失,这时被动方会重新发
fin, 如果这时主动方处于 CLOSED 状态 ,就会响应 rst 而不是 ack。所以
主动方要处于 TIME_WAIT 状态,而不能是 CLOSED 。
TIME_WAIT 并不会占用很大资源的,除非受到攻击。
还有,如果一方 send 或 recv 超时,就会直接进入 CLOSED 状态。
net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_fin_timeout = 30 表示如果套接字由本端要求关闭,这个参数决定了它保持在FIN-WAIT-2状态的时间。
net.ipv4.tcp_keepalive_time = 1200 表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为20分钟。
net.ipv4.ip_local_port_range = 1024 65000 表示用于向外连接的端口范围。缺省情况下很小:32768到61000,改为1024到65000。
net.ipv4.tcp_max_syn_backlog = 8192 表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。
net.ipv4.tcp_max_tw_buckets = 5000 表示系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。
默 认为180000,改为5000。对于Apache、Nginx等服务器,上几行的参数可以很好地减少TIME_WAIT套接字数量,但是对于 Squid,效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量,避免Squid服务器被大量的TIME_WAIT套接字拖死。
注:
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
设置这两个参数: reuse是表示是否允许重新应用处于TIME-WAIT状态的socket用于新的TCP连接; recyse是加速TIME-WAIT sockets回收。
# cat /etc/sysctl.conf
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
# sysctl –p
参考文档:
TCP协议:http://bkeep.blog.163.com/blog/static/123414290201041110152732/
Tomcat的配置参数:http://bkeep.blog.163.com/blog/static/123414290200911744644321/
Tomcat服务器运行一段时间就登录不进去了!
用ssh连接到服务器以后做下面的操作
Step1:查看系统负载是不是太大了,给hang住了
# top
top - 21:43:23 up 59 days, 18:39, 1 user, load average: 0.02, 0.05, 0.01 //负载一点都不高!
Tasks: 163 total, 1 running, 162 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.1%sy, 0.0%ni, 99.8%id, 0.2%wa, 0.0%hi, 0.0%si, 0.0%st
Step2:查看8443端口是否启动
# netstat -natp |grep 8443
tcp 0 0 :::8443 :::* LISTEN 21932/java
Step3:发现有许多ESTABLISHED状态!
# netstat -natp |grep ESTABLISHED
tcp 0 0 ::ffff: 192.168.22.61:8443 ::ffff:116.227.157.17:3759 ESTABLISHED 16578/java
tcp 0 0 ::ffff: 192.168.22.61:8443 ::ffff:118.126.10.10:1213 ESTABLISHED 16578/java
tcp 0 0 ::ffff: 192.168.22.61:8443 ::ffff:192.168.22.55:3542 ESTABLISHED 16578/java
Step4:统计一下有多少个ESTABLISHED连接
# netstat -natp |grep ESTABLISHED |wc -l
549
Step5:统计一下到8443端口的ESTABLISHED连接数
# netstat -natp |grep ESTABLISHED |grep 8443|wc -l
507
呵呵,发现有很多ESTANBLISH状态存在,但是现在是下班时间啊,不应该有这么多session的呀!于是找了几个客户机的ip地址ping了下,结果不通!至此可以判断是tomcat服务器回收session时出了问题。这个一般跟服务器的Timeout设置有关!
# ping 192.168.22.55
PING 192.168.22.55 (192.168.22.55) 56(84) bytes of data.
From 192.168.22.61 icmp_seq=1 Destination Host Unreachable
From 192.168.22.61 icmp_seq=2 Destination Host Unreachable
Step6:于是查看tomcat的配置文件 server.xml
将connectionTimeout="20000" 改为 connectionTimeout="100"
acceptCount="100" 改为 acceptCount="5000"
说明一下,其实20000毫秒也没什么不对,杯具在于20000毫秒的时候acceptCount=”100” !
# cat /usr/local/pkg/Tomcat/conf/server.xml
<Service className="org.apache.catalina.core.StandardService" debug="0" name="Tomcat-Standalone">
<Connector className="org.apache.coyote.tomcat4.CoyoteConnector" acceptCount="5000" bufferSize="2048" connectionTimeout="100" debug="0" disableUploadTimeout="true" enableLookups="true" maxProcessors="500" minProcessors="50" port="80" protocolHandlerClassName="org.apache.coyote.http11.Http11Protocol" proxyPort="0" redirectPort="8443" scheme="http" secure="false" tcpNoDelay="true" useURIValidationHack="false">
<Factory className="org.apache.catalina.net.DefaultServerSocketFactory"/>
</Connector> <Connector className="org.apache.coyote.tomcat4.CoyoteConnector" acceptCount="5000" bufferSize="2048" connectionTimeout="100" debug="0" disableUploadTimeout="true" enableLookups="true" maxProcessors="500" minProcessors="50" port="8443" protocolHandlerClassName="org.apache.coyote.http11.Http11Protocol" proxyPort="0" redirectPort="443" scheme="https" secure="true" tcpNoDelay="true" useURIValidationHack="false"> <Factory className="org.apache.coyote.tomcat4.CoyoteServerSocketFactory" clientAuth="false" keystoreFile="/usr/local/pkg/Tomcat/conf/tomcat.keystore" keystorePass="123456" keystoreType="PKCS12" protocol="TLS" randomFile="/root/random.pem" rootFile="/root/root.pem"/>
问题2:Time_Wait
解决上面的问题后又发现有许多Time_Wait存在。google了一下发现下面这篇佳文,但是不知道原文出自哪里。。。所以就不说出处了。。
这篇文章有以下几个亮点
亮点1:awk编程一例
Time_Wait是个古老的问题!
# netstat -n|awk '/^tcp/{++State[$NF]} END {for(a in State) print a,”\t”,State[a]}'
LAST_ACK 14
SYN_RECV 348
ESTABLISHED 70
FIN_WAIT1 229
FIN_WAIT2 30
CLOSING 33
TIME_WAIT 18122
亮点2:netstat –natp 输出结果State列的详细说明
状态:描述
CLOSED:无连接是活动的或正在进行
LISTEN:服务器在等待进入呼叫
SYN_RECV:一个连接请求已经到达,等待确认
SYN_SENT:应用已经开始,打开一个连接
ESTABLISHED:正常数据传输状态
FIN_WAIT1:应用说它已经完成
FIN_WAIT2:另一边已同意释放
ITMED_WAIT:等待所有分组死掉
CLOSING:两边同时尝试关闭
TIME_WAIT:另一边已初始化一个释放
LAST_ACK:等待所有分组死掉
也就是说,这条命令可以把当前系统的网络连接状态分类汇总。
下面解释一下为啥要这样写:
一个简单的管道符连接了netstat和awk命令。
先来看看netstat:
#netstat -natp
Active Internet connections (w/o servers)
Proto Recv-Q Send-Q Local Address Foreign Address State
tcp 0 0 123.123.123.123:80 234.234.234.234:12345 TIME_WAIT
你实际执行这条命令的时候,可能会得到成千上万条类似上面的记录,不过我们就拿其中的一条就足够了。
再来看看awk:
/^tcp/
滤出tcp开头的记录,屏蔽udp, socket等无关记录。
state[]
相当于定义了一个名叫state的数组
NF
表示记录的字段数,如上所示的记录,NF等于6
$NF
表示某个字段的值,如上所示的记录,$NF也就是$6,表示第6个字段的值,也就是TIME_WAIT
state[$NF]
表示数组元素的值,如上所示的记录,就是state[TIME_WAIT]状态的连接数
++state[$NF]
表示把某个数加一,如上所示的记录,就是把state[TIME_WAIT]状态的连接数加一
END
表示在最后阶段要执行的命令
for(key in state)
遍历数组
print key,”\t”,state[key]
打印数组的键和值,中间用\t制表符分割,美化一下。
如发现系统存在大量TIME_WAIT状态的连接,通过调整内核参数解决,
vim /etc/sysctl.conf
编辑文件,加入以下内容:
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_fin_timeout = 30
然后执行 /sbin/sysctl -p 让参数生效。
net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_fin_timeout 修改系統默认的 TIMEOUT 时间
下面附上TIME_WAIT状态的意义:
客户端与服务器端建立TCP/IP连接后关闭SOCKET后,服务器端连接的端口
状态为TIME_WAIT
是不是所有执行主动关闭的socket都会进入TIME_WAIT状态呢?
有没有什么情况使主动关闭的socket直接进入CLOSED状态呢?
主动关闭的一方在发送最后一个 ack 后
就会进入 TIME_WAIT 状态 停留2MSL(max segment lifetime)时间
这个是TCP/IP必不可少的,也就是“解决”不了的。
也就是TCP/IP设计者本来是这么设计的
TIME_WAIT状态的主要作用:
1。防止上一次连接中的包,迷路后重新出现,影响新连接
(经过2MSL,上一次连接中所有的重复包都会消失)
2。可靠的关闭TCP连接
在主动关闭方发送的最后一个 ack(fin) ,有可能丢失,这时被动方会重新发
fin, 如果这时主动方处于 CLOSED 状态 ,就会响应 rst 而不是 ack。所以
主动方要处于 TIME_WAIT 状态,而不能是 CLOSED 。
TIME_WAIT 并不会占用很大资源的,除非受到攻击。
还有,如果一方 send 或 recv 超时,就会直接进入 CLOSED 状态。
net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_fin_timeout = 30 表示如果套接字由本端要求关闭,这个参数决定了它保持在FIN-WAIT-2状态的时间。
net.ipv4.tcp_keepalive_time = 1200 表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为20分钟。
net.ipv4.ip_local_port_range = 1024 65000 表示用于向外连接的端口范围。缺省情况下很小:32768到61000,改为1024到65000。
net.ipv4.tcp_max_syn_backlog = 8192 表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。
net.ipv4.tcp_max_tw_buckets = 5000 表示系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。
默 认为180000,改为5000。对于Apache、Nginx等服务器,上几行的参数可以很好地减少TIME_WAIT套接字数量,但是对于 Squid,效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量,避免Squid服务器被大量的TIME_WAIT套接字拖死。
注:
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
设置这两个参数: reuse是表示是否允许重新应用处于TIME-WAIT状态的socket用于新的TCP连接; recyse是加速TIME-WAIT sockets回收。
# cat /etc/sysctl.conf
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
# sysctl –p
参考文档:
TCP协议:http://bkeep.blog.163.com/blog/static/123414290201041110152732/
Tomcat的配置参数:http://bkeep.blog.163.com/blog/static/123414290200911744644321/