在某个群里看到有人说服务器的“惊群”问题,当时第一次看到这个名词有点陌生,然后就到网上查了相关的资料。了解到所谓的“惊群”,就是多个进程(每个进程都有自己的epoll_fd),然后把同一个文件描述符加入到各自的epoll中,这样当这个文件描述符有事件发生的时候,就会同时触发这多个进程的epoll_wait。
比如,在服务端创建了socket ,bing, listen之后,创建几个进程同时对这个 socketfd 进行 accept监听(当然一般不会这样)。
如下模拟 了惊群出现的情景:
#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <assert.h>
#include <sys/wait.h>
#include <string.h>
#include <errno.h>
#define IP "127.0.0.1"
#define PORT 8888
#define WORKER 4
int worker(int listenfd, int i)
{
while (1) {
printf("I am worker %d, begin to accept connection.\n", i);
struct sockaddr_in client_addr;
socklen_t client_addrlen = sizeof( client_addr );
int connfd = accept( listenfd, ( struct sockaddr* )&client_addr, &client_addrlen );
if (connfd != -1) {
printf("worker %d accept a connection success.\t", i);
printf("ip :%s\t",inet_ntoa(client_addr.sin_addr));
printf("port: %d \n",client_addr.sin_port);
} else {
printf("worker %d accept a connection failed,error:%s", i, strerror(errno));
close(connfd);
}
}
return 0;
}
int main()
{
int i = 0;
struct sockaddr_in address;
bzero(&address, sizeof(address));
address.sin_family = AF_INET;
inet_pton( AF_INET, IP, &address.sin_addr);
address.sin_port = htons(PORT);
int listenfd = socket(PF_INET, SOCK_STREAM, 0);
assert(listenfd >= 0);
int ret = bind(listenfd, (struct sockaddr*)&address, sizeof(address));
assert(ret != -1);
ret = listen(listenfd, 5);
assert(ret != -1);
for (i = 0; i < WORKER; i++) {
printf("Create worker %d\n", i+1);
pid_t pid = fork();
/*child process */
if (pid == 0) {
worker(listenfd, i);
}
if (pid < 0) {
printf("fork error");
}
}
/*wait child process*/
int status;
wait(&status);
return 0;
}
运行结果如下:
客户端采用telnet 运行
服务端运行结果:
从结果看到,这时候并没有出现我们所谓的“惊群”现象。原来从linux 3.0 之后,从内核层面已经解决了该问题。虽然已经解决了,但是还是需要了解一下比较好。
总结:
在网上看到 nginx 很好地解决“惊群”现象。首先在启动进程的时候,不把 listenfd 加入到自己的epoll中,等待进程初始化完毕,开始处理事件的时候,这时候的第一步是抢锁,即抢占对 listenfd 的控制权,哪个进程抢到,立刻加入到自己的epoll 。没抢到 listenfd 的进程,继续处理自己的处理,但是不会 accept。而抢到 listenfd 的进程,就会 accept 新的连接。这个锁是 “自旋锁” 用原子变量实现的,不会造成进程的睡眠和堵塞。(只是看到网上这么说的,没仔细看过 nginx 的源码)。