linux 网络编程中所谓的“惊群”问题

最新推荐文章于 2022-07-21 14:42:47 发布

gochenguowei

最新推荐文章于 2022-07-21 14:42:47 发布

阅读量236

点赞数

分类专栏： linux网络编程文章标签： linux网络编程

本文链接：https://blog.csdn.net/gochenguowei/article/details/79939806

版权

linux网络编程专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在某个群里看到有人说服务器的“惊群”问题，当时第一次看到这个名词有点陌生，然后就到网上查了相关的资料。了解到所谓的“惊群”，就是多个进程（每个进程都有自己的epoll_fd）,然后把同一个文件描述符加入到各自的epoll中，这样当这个文件描述符有事件发生的时候，就会同时触发这多个进程的epoll_wait。

比如，在服务端创建了socket ，bing, listen之后，创建几个进程同时对这个 socketfd 进行 accept监听（当然一般不会这样）。

如下模拟了惊群出现的情景：

#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>  
#include <sys/socket.h>  
#include <netinet/in.h>  
#include <arpa/inet.h>  
#include <assert.h>  
#include <sys/wait.h>
#include <string.h>
#include <errno.h>

#define IP   "127.0.0.1"
#define PORT  8888
#define WORKER 4

int worker(int listenfd, int i)
{
    while (1) {
        printf("I am worker %d, begin to accept connection.\n", i);
        struct sockaddr_in client_addr;  
        socklen_t client_addrlen = sizeof( client_addr );  
        int connfd = accept( listenfd, ( struct sockaddr* )&client_addr, &client_addrlen );  
        if (connfd != -1) {
            printf("worker %d accept a connection success.\t", i);
            printf("ip :%s\t",inet_ntoa(client_addr.sin_addr));
            printf("port: %d \n",client_addr.sin_port);
        } else {
            printf("worker %d accept a connection failed,error:%s", i, strerror(errno));
　　　　　　close(connfd);
        }
    }
    return 0;
}

int main()
{
    int i = 0;
    struct sockaddr_in address;  
    bzero(&address, sizeof(address));  
    address.sin_family = AF_INET;  
    inet_pton( AF_INET, IP, &address.sin_addr);  
    address.sin_port = htons(PORT);  
    int listenfd = socket(PF_INET, SOCK_STREAM, 0);  
    assert(listenfd >= 0);  

    int ret = bind(listenfd, (struct sockaddr*)&address, sizeof(address));  
    assert(ret != -1);  

    ret = listen(listenfd, 5);  
    assert(ret != -1);  

    for (i = 0; i < WORKER; i++) {
        printf("Create worker %d\n", i+1);
        pid_t pid = fork();
        /*child  process */
        if (pid == 0) {
            worker(listenfd, i);
        }

        if (pid < 0) {
            printf("fork error");
        }
    }

    /*wait child process*/
    int status;
    wait(&status);
    return 0;
}

运行结果如下：

客户端采用telnet 运行

服务端运行结果：

从结果看到，这时候并没有出现我们所谓的“惊群”现象。原来从linux 3.0 之后，从内核层面已经解决了该问题。虽然已经解决了，但是还是需要了解一下比较好。

总结：

在网上看到 nginx 很好地解决“惊群”现象。首先在启动进程的时候，不把 listenfd 加入到自己的epoll中，等待进程初始化完毕，开始处理事件的时候，这时候的第一步是抢锁，即抢占对 listenfd 的控制权，哪个进程抢到，立刻加入到自己的epoll 。没抢到 listenfd 的进程，继续处理自己的处理，但是不会 accept。而抢到 listenfd 的进程，就会 accept 新的连接。这个锁是 “自旋锁” 用原子变量实现的，不会造成进程的睡眠和堵塞。（只是看到网上这么说的，没仔细看过 nginx 的源码）。