最近碰到了一个问题,设备端上挂载的nginx服务通过c版fcgi提供服务,其中的长连接API经常连接的设备断网后其他设备无法连接上。
初步查看源代码调试日志发现网络断了nginx未检测到,这时就想到给nginx添加保活检测,配置中listen加上了,写模块给connection也加上,均发现无效果,半天摸不清头脑。先写个小小的测试程序测试保活特性吧,开始我测试的是服务端只收不发,客户端只发不收,居然达到了我要的效果,短短几秒之后端口就关闭了。后面测试了收发同时跑的时候,死活都达不到效果,这就郁闷了。
listen保活检测配置:
listen 80 so_keepalive=1:1:1;
//so_keepalive= tcp_keepidle:tcp_keepintvl:tcp_keepcnt
经过抓包后发现这两种情况的不同之处,请看截图:
这是只收不发的抓包截图,Keep-Alive严格按照设定走。
这是收发同时跑的抓包截图,Keep-Alive一个都没有,多出了TCP Retransmission,这个是超时重传的包。后面查了下为啥保活没激活,仔细瞧了下保活注解后注意到了 ( 如果2小时内在此套接口的任一方向都没有数据交换 ) 这是重点。在后面这种情况下需要去处理超时重发,但是超时重发貌似只能调整系统设置(暂时未找到怎么通过设置socket调整超时重发参数,知道的希望告诉我下)。
改系统中的设定如下,可以达到了效果。
echo "net.ipv4.tcp_retries2=5" >> /etc/sysctl.conf
sysctl -p
但是改系统参数配置影响范围有点大,这个是能是没有办法之后的方法了。之后翻找了下nginx中fastcgi流程,与源码对照的看了下,发现可以这么操作:
1.清零 SO_SNDBUF,,通过listen 80 sndbuf=0; 参数修改
2.降低fastcgi缓冲区大小,避免太多次的缓冲区操作导致超时延后
3.设置send_timeout 1
ps:1,2两点为了使协议栈和用户发送缓冲能尽快的装满,走入发送超时检测流程。
具体配置如下:
listen 80 sndbuf=0;
...
location ~ \.push$ {
send_timeout 1;
fastcgi_buffer_size 200;
fastcgi_buffers 2 200;
fastcgi_busy_buffers_size 200;
...
}
nginx保活模块:https://pan.baidu.com/s/1EGLmNg5S9uXZloeLCvPOFQ
测试用c版代码:
server.c
#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>
#ifdef _WIN32
#define WIN32 1
#endif
#ifdef WIN32
#include <winsock2.h>
#include <windows.h>
#include <mstcpip.h>
#define close closesocket
#else
#include <unistd.h>
#include <sys/select.h>
#include <sys/time.h>
#include <sys/types.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <netinet/tcp.h>
#include <fcntl.h>
#include <errno.h>
typedef int SOCKET;
#endif
#define LOGS_FULL(OPTION,ERRNO) \
printf("(%s %d %s) %s errno:%d",__FILE__,__LINE__,__FUNCTION__,OPTION,ERRNO);
#define LOGS(OPTION,ERRNO) \
printf("%s errno:%d",OPTION,ERRNO);
#define ERRORS(OPTION,ERRNO) LOGS(OPTION,ERRNO)
#ifdef WIN32
int initNetwork()
{
WSADATA wsaData;
int ret = WSAStartup(MAKEWORD(2,2), &wsaData);
if (ret != 0) return 1;
return 0;
}
int setnonblocking(SOCKET sock)
{
unsigned long ul=1;
int ret=ioctlsocket(sock,FIONBIO,(unsigned long *)&ul);
if(ret==SOCKET_ERROR)
{
}
return ret;
}
int socket_keepalive(SOCKET socket)
{
int keep_alive = 1;
int ret = setsockopt(socket, SOL_SOCKET, SO_KEEPALIVE, (char*)&keep_alive, sizeof(keep_alive));
if (ret == SOCKET_ERROR)
{
printf("SO_KEEPALIVE failed:%d\n", WSAGetLastError());
return -1;
}
struct tcp_keepalive in_keep_alive = {0};
unsigned long ul_in_len = sizeof(struct tcp_keepalive);
struct tcp_keepalive out_keep_alive = {0};
unsigned long ul_out_len = sizeof(struct tcp_keepalive);
unsigned long ul_bytes_return = 0;
in_keep_alive.onoff = 1;
in_keep_alive.keepaliveinterval = 5000;
in_keep_alive.keepalivetime = 1000;
ret = WSAIoctl(socket, SIO_KEEPALIVE_VALS, (LPVOID)&in_keep_alive, ul_in_len,
(LPVOID)&out_keep_alive, ul_out_len, &ul_bytes_return, NULL, NULL);
if