linux下select, poll和epoll IO模型的详解

一、epoll 介绍

epoll 可是当前在 Linux 下开发大规模并发网络程序的热门人选, epoll 在 Linux2.6 内核中正式引入,和 select 相似,其实都 I/O 多路复用技术而已 ,并没有什么神秘的。其实在linux 下设计并发网络程序,向来不缺少方法,比如典型的 Apache 模型( Process Per Connection ,简称 PPC ), TPC ( Thread Per Connection )模型,以及 select 模型和 poll 模型,那为何还要再引入 epoll 这个东东呢?那还是有得说说的 …

二、常用模型的缺点

如果不摆出来其他模型的缺点,怎么能对比出 Epoll 的优点呢。

① PPC/TPC 模型

这两种模型思想类似,就是让每一个到来的连接一边自己做事去,别再来烦我 。只是 PPC 是为它开了一个进程,而 TPC 开了一个线程。可是别烦我是有代价的,它要时间和空间啊,连接多了之后,那么多的进程 / 线程切换,这开销就上来了;因此这类模型能接受的最大连接数都不会高,一般在几百个左右。

② select 模型

1. 最大并发数限制,因为一个进程所打开的 FD (文件描述符)是有限制的,由 FD_SETSIZE 设置,默认值是 1024/2048 ,因此 Select 模型的最大并发数就被相应限制了。自己改改这个 FD_SETSIZE ?想法虽好,可是先看看下面吧 …

2. 效率问题, select 每次调用都会线性扫描全部的 FD 集合,这样效率就会呈现线性下降,把 FD_SETSIZE 改大的后果就是,大家都慢慢来,什么?都超时了。

3. 内核 / 用户空间 内存拷贝问题,如何让内核把 FD 消息通知给用户空间呢?在这个问题上 select 采取了内存拷贝方法。

总结为:1.连接数受限  2.查找配对速度慢 3.数据由内核拷贝到用户态

③ poll 模型

基本上效率和 select 是相同的, select 缺点的 2 和 3 它都没有改掉。

三、epoll 的提升

把其他模型逐个批判了一下,再来看看epoll 的改进之处吧,其实把 select 的缺点反过来那就是 Epoll 的优点了。

①. epoll 没有最大并发连接的限制,上限是最大可以打开文件的数目,这个数字一般远大于 2048, 一般来说这个数目和系统内存关系很大 ,具体数目可以 cat /proc/sys/fs/file-max 察看。

②. 效率提升, epoll 最大的优点就在于它只管你“活跃”的连接 ,而跟连接总数无关,因此在实际的网络环境中, Epoll 的效率就会远远高于 select 和 poll 。

③. 内存拷贝, epoll 在这点上使用了“共享内存 ”,这个内存拷贝也省略了。

四、epoll 为什么高效

epoll 的高效和其数据结构的设计是密不可分的,这个下面就会提到。

首先回忆一下 select 模型,当有 I/O 事件到来时, select 通知应用程序有事件到了快去处理,而应用程序必须轮询所有的 FD 集合,测试每个 FD 是否有事件发生,并处理事件;代码像下面这样:

int res = select(maxfd+1, &readfds, NULL, NULL, 120);
if (res > 0)
{
    for (int i = 0; i < MAX_CONNECTION; i++)
    {
        if (FD_ISSET(allConnection[i], &readfds))
        {
            handleEvent(allConnection[i]);
        }
    }
}
// if(res == 0) handle timeout, res < 0 handle error

epoll 不仅会告诉应用程序有I/0 事件到来,还会告诉应用程序相关的信息,这些信息是应用程序填充的,因此根据这些信息应用程序就能直接定位到事件,而不必遍历整个FD 集合。

int res = epoll_wait(epfd, events, 20, 120);
for (int i = 0; i < res;i++)
{
    handleEvent(events[n]);
}

五、 epoll api

epoll的接口非常简单,一共就三个函数:

1. int epoll_create(int size);

创建一个epoll的句柄,size用来告诉内核这个监听的数目一共有多大。这个参数不同于select()中的第一个参数,给出最大监听的fd+1的值。需要注意的是,当创建好epoll句柄后,它就是会占用一个fd值,在linux下如果查看/proc/进程id/fd/,是能够看到这个fd的,所以在使用完epoll后,必须调用close()关闭,否则可能导致fd被耗尽。

2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

epoll的事件注册函数,它不同与select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。第一个参数是epoll_create()的返回值,第二个参数表示动作,用三个宏来表示:
EPOLL_CTL_ADD:注册新的fd到epfd中;
EPOLL_CTL_MOD:修改已经注册的fd的监听事件;
EPOLL_CTL_DEL:从epfd中删除一个fd;
第三个参数是需要监听的fd,第四个参数是告诉内核需要监听什么事,struct epoll_event结构如下:

typedef union epoll_data {
    void *ptr;
    int fd;
    __uint32_t u32;
    __uint64_t u64;
} epoll_data_t;


struct epoll_event {
    __uint32_t events; /* Epoll events */
    epoll_data_t data; /* User data variable */
};

events可以是以下几个宏的集合:
EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);
EPOLLOUT:表示对应的文件描述符可以写;
EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
EPOLLERR:表示对应的文件描述符发生错误;
EPOLLHUP:表示对应的文件描述符被挂断;
EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来说的。
EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里

3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

等待事件的产生,类似于select()调用。参数events用来从内核得到事件的集合,maxevents告之内核这个events有多大,这个 maxevents的值不能大于创建epoll_create()时的size,参数timeout是超时时间(毫秒,0会立即返回,-1将不确定,也有说法说是永久阻塞)。该函数返回需要处理的事件数目,如返回0表示已超时。

六、例子代码

服务端代码:

#include <sys/epoll.h>  
#include <netinet/in.h>  
#include <sys/types.h>          /* See NOTES */  
#include <sys/socket.h>  
#include <string.h>  
#include <stdio.h>  
#include <unistd.h>  
#include <fcntl.h>  
  
#include <errno.h>  
#include <stdlib.h>  
typedef struct sockaddr_in sockaddr_in ;  
typedef struct sockaddr     sockaddr ;  
  
#define SER_PORT    8080  
  
int nonblock(int fd){  
    int opt ;  
    opt = fcntl(fd,F_GETFL);  
    opt |= O_NONBLOCK ;  
    return fcntl(fd,F_SETFL,opt);  
}  
  
int main(int argc,char**argv){  
    sockaddr_in srv, cli ;  
    int listen_fd ,con_fd ;  
    socklen_t  len;  
    int res ,nsize,ws;  
    char buf[255];  
  
    int epfd,ers;  
    struct epoll_event evn,events[50];  
    int i;  
  
    bzero(&srv,sizeof(srv));  
    bzero(&cli,sizeof(cli));  
    srv.sin_port= SER_PORT ;  
    srv.sin_family = AF_INET ;  
    listen_fd = socket(AF_INET,SOCK_STREAM,0);  
  
    int yes = 1;  
    setsockopt(listen_fd,SOL_SOCKET,SO_REUSEADDR,&yes,sizeof(int));  
  
    if(bind(listen_fd,(sockaddr*)&srv,sizeof(sockaddr))<0)  {  
        perror("bind");  
        exit(0);  
    }  
    listen(listen_fd,100);  
    nonblock(listen_fd);  
    epfd = epoll_create(200);  
    evn.events = EPOLLIN|EPOLLET ;  
    evn.data.fd = listen_fd;   
    epoll_ctl(epfd,EPOLL_CTL_ADD,listen_fd,&evn);  
    static int count ;  
    while(1){  
        ers = epoll_wait(epfd,events,100,5000);  
        if(ers<0 ){  
            perror("epoll_wait:");exit(0);  
        }else if(ers==0){  
            printf("time out:%d\n",count++);  
            continue ;  
        }  
        for(i=0;i<ers;i++){  
            if(events[i].data.fd == listen_fd){  
                con_fd = accept(listen_fd,(sockaddr*)&cli ,&len);  
                nonblock(con_fd);  
                printf("connect from:%s\n",inet_ntoa(cli.sin_addr));  
                evn.data.fd = con_fd;  
                evn.events = EPOLLIN | EPOLLET ;  
                epoll_ctl(epfd,EPOLL_CTL_ADD,con_fd,&evn);  
  
            }else if(events[i].events & EPOLLIN){     
                  
                nsize = 0;  
                while((res=read(events[i].data.fd,buf+nsize,sizeof(buf)-1))>0){  
                    nsize+= res;  
                }  
                if(res==0){  
                    epoll_ctl(epfd,EPOLL_CTL_DEL,events[i].data.fd,NULL);     
                    printf("a client over\n");  
                    close(con_fd);  
                    continue ;  
                }else if(res<0 && errno!=EAGAIN){  
                    perror("read");  
                    continue ;  
                }  
                buf[nsize]=0;  
                evn.data.fd = events[i].data.fd;  
                evn.events=EPOLLOUT|EPOLLET ;  
                epoll_ctl(epfd,EPOLL_CTL_MOD,events[i].data.fd,&evn);                 
                  
            }else if(events[i].events & EPOLLOUT){  
                nsize = strlen(buf);  
                ws = 0;  
                while(nsize>0){  
                     ws=write(events[i].data.fd,buf,nsize);  
                    nsize-=ws;  
                }  
                evn.data.fd = events[i].data.fd;  
                evn.events=EPOLLIN|EPOLLET ;  
                epoll_ctl(epfd,EPOLL_CTL_MOD,events[i].data.fd,&evn);     
            }else{  
                printf("others\n");  
                  
            }             
        }  
  
    }  
  
    close(listen_fd);  
      
    return 0;  
}  

客户端代码:

#include <sys/epoll.h>  
#include <netinet/in.h>  
#include <sys/types.h>          /* See NOTES */  
#include <sys/socket.h>  
#include <strings.h>  
#include <stdio.h>  
#include <stdlib.h>  
#include <unistd.h>  
typedef struct sockaddr_in sockaddr_in ;  
typedef struct sockaddr     sockaddr ;  
  
#define SER_PORT    8080  
#define IP_ADDR     "10.33.28.230"  
  
int main(int argc,char**argv){  
    sockaddr_in srv, cli ;  
    int listen_fd ,con_fd ;  
    socklen_t  len;  
    int res,ws ;  
    char buf[255];  
  
    bzero(&srv,sizeof(srv));  
    bzero(&cli,sizeof(cli));  
    srv.sin_port= SER_PORT ;  
    srv.sin_family = AF_INET ;  
    inet_pton(AF_INET,IP_ADDR,&srv.sin_addr);  
  
    listen_fd = socket(AF_INET,SOCK_STREAM,0);  
    if(connect(listen_fd,(sockaddr*)&srv,sizeof(sockaddr))<0){  
        perror("connect");  
        exit(0);  
    }  
    while(1){  
        res = read(STDIN_FILENO,buf,sizeof(buf)-1);  
        ws = write(listen_fd,buf,res);  
        res = read(listen_fd,buf,sizeof(buf)-1);  
        ws = write(STDOUT_FILENO,buf,res);  
    }  
  
    close(listen_fd);  
      
    return 0;  
}  

 

七、参考

http://www.kuqin.com/linux/20120912/330528.htm

http://blog.sina.com.cn/s/blog_81c2545a01018m78.html

http://blog.csdn.net/ljx0305/article/details/4065058

 

  • 4
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值