epoll

epoll
     大家一谈到I/O复用必使用epoll,epoll真的那么好吗?epoll有什么有点呢?我们这里来说一说epoll的优点以及为了实现这些优点背后都做了什么.
    
首先我们来讲一讲select的缺点:
     1.每次select返回时候都要重新设置描述字,即每次调用select都要在内核和用户空间进行拷贝描述字.耗时耗力.
     2.在select实现中,每次都轮询线性检查所有描述字,如果没有描述字准备好就睡眠,等待内核计时器(这里不同于select计时器)唤醒再次检查.时间复杂度O(n),当传入大量描述字时候这种性能是不可接受的.
     3.select有上限,即只能使用有限个描述字
     4.对于poll来说,仅仅改变了select对描述字的限制,poll使用一个结构体来存储描述字,所以不存在描述字个数的限制,但是其他基本未变(内核和用户空间的拷贝,轮询线性检测描述字).
    
     select/poll缺点就是epoll改进的地方,即这些缺点epoll都没有了.我们来讲一讲epoll是如何实现这些技术的.
    
     1.epoll实现了一个小型的文件系统,对于添加来的描述字进行管理.
     2.epoll使用mmap内存映射技术,不用在内核空间和用户空间来回做无用的拷贝
     3.最重要的是epoll内部使用了回调机制,不用每次线性检查描述字是否准备好.时间复杂度达到了O(1).epoll将事件的回调函数注册给驱动,等待设备准备好就会自动调用回调函数,并将红黑树中的描述字节点添加到就绪链表中.
    
epoll核心结构:
     epoll有两个核心结构:
          1.类似于nginx的双向链表(在我的博客中前文有介绍),用于存储就绪描述字.
          2.红黑树:用于对新添加进来的元素进行查询是否存在.epoll使用epitem来存储传递进来的描述字,并作为红黑树中的节点插入其中.
    
     struct eventpoll {
    spin_lock_t lock;//对本数据结构的访问
    struct mutex mtx;//防止使用时被删除
    wait_queue_head_t wq;//sys_epoll_wait() 使用的等待队列
    wait_queue_head_t poll_wait;//file->poll()使用的等待队列
    struct list_head rdllist;//事件满足条件的链表
    struct rb_root rbr;//用于管理所有fd的红黑树
    struct epitem *ovflist;//将事件到达的fd进行链接起来发送至用户空间
     }
    
     struct epitem{
     struct rb_node rbn;//用于主结构管理的红黑树
    struct list_head rdllink;//事件就绪队列
    struct epitem *next;//用于主结构体中的链表
    struct epoll_filefd ffd;//每个fd生成的一个结构
    int nwait;//
    struct list_head pwqlist;//poll等待队列
    struct eventpoll *ep;//该项属于哪个主结构体
    struct list_head fllink;//链接fd对应的file链表
    struct epoll_event event;//注册的感兴趣的事件,也就是用户空间的epoll_event
    }
    
epoll的使用:
     #include <sys/epoll.h>
     int epoll_create(int size);
     int epoll_ctl(int epfd, int op,int fd, struct epoll_event *event);
     int epoll_wait(int epfd, structepoll_event * events, int maxevents, int timeout);
    
下面我们来讲一讲这三个函数具体怎么使用.
    
1. int epoll_create(int size);
     创建一个epoll文件系统,返回的是一个描述字fd,使用完毕后必须关闭。(在linux下如果查看/proc/进程id/fd/,是能够看到这个fd的,所以在使用完epoll后,必须调用close()关闭,否则可能导致fd被耗尽。)
     自从linux2.6.8之后,size参数是被忽略的。
    
2. int epoll_ctl(int epfd, int op,int fd, struct epoll_event *event);

     epoll的事件注册函数,它不同于select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。
     第一个参数是epoll_create()的返回值。
     第二个参数表示动作,用三个宏来表示:
          EPOLL_CTL_ADD:注册新的fd到epfd中;
          EPOLL_CTL_MOD:修改已经注册的fd的监听事件;
          EPOLL_CTL_DEL:从epfd中删除一个fd;
     第三个参数是需要监听的fd。
     第四个参数是告诉内核需要监听什么事件,
     struct epoll_event结构如下:
    
     //保存触发事件的某个文件描述符相关的数据(与具体使用方式有关)
     typedef union epoll_data {
          void *ptr;
          int fd;
          __uint32_t u32;
          __uint64_t u64;
     } epoll_data_t;

    
     // 感兴趣的事件和被触发的事件
     struct epoll_event {
          __uint32_t events; /* Epoll events */
          epoll_data_t data; /* User data variable */
     };

    
     events可以是以下几个宏的集合:
          EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);
          EPOLLOUT:表示对应的文件描述符可以写;
          EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
          EPOLLERR:表示对应的文件描述符发生错误;
          EPOLLHUP:表示对应的文件描述符被挂断;
          EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(LevelTriggered)来说的。
          EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里
         
3. int epoll_wait(int epfd, structepoll_event * events, int maxevents, int timeout);

     收集在epoll监控的事件中已经发生的事件。
     参数events是分配好的epoll_event结构体数组,epoll将会把发生的事件赋值到events数组中(events不可以是空指针,内核只负责把数据复制到这个events数组中,不会去帮助我们在用户态中分配内存)。
     maxevents告之内核这个events有多大,这个 maxevents的值不能大于创建epoll_create()时的size.
     参数timeout是超时时间(毫秒,0会立即返回,-1将不确定,也有说法说是永久阻塞)。如果函数调用成功,返回对应I/O上已准备好的文件描述符数目,如返回0表示已超时。

还有一个与这个类似的函数epoll_pwait:
     int epoll_pwait(int epfd, struct epoll_event *events,
                      int maxevents, int timeout,
                      const sigset_t *sigmask);
     与epoll_wait的区别是可以通过最后一个参数设置阻塞过程中信号屏蔽字,相当于pselect和select的关系

上面的函数原型等价于:
     sigset_toriginmask;
     sigpromask(SIG_SETMASK,&sigmask,& originmask);
     ready = epoll_wait(epfd,&events,maxevents,timeout);
     sigpromask(SIG_SETMASK,&  originmask ,NULL);
    
epoll有两种工作模式:

LevelTriggered工作模式
     以LT方式调用epoll接口的时候,它就相当于一个速度比较快的poll,并且无论后面的数据是否被使用,因此他们具有同样的职能。因为即使使用ET模式的epoll,在收到多个chunk的数据的时候仍然会产生多个事件。调用者可以设定EPOLLONESHOT标志,在 epoll_wait收到事件后epoll会与事件关联的文件句柄从epoll描述符中禁止掉。因此当EPOLLONESHOT设定后,使用带有EPOLL_CTL_MOD标志的epoll_ctl处理文件句柄就成为调用者必须作的事情。

LT(level triggered)
     是epoll缺省的工作方式,并且同时支持block和no-block socket.在这种做法中,内核告诉你一个文件描述符是否就绪了,然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作,内核还是会继续通知你的,所以,这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表.
    
     ET (edge-triggered)是高速工作方式,只支持no-block socket,它效率要比LT更高。ET与LT的区别在于,当一个新的事件到来时,ET模式下当然可以从epoll_wait调用中获取到这个事件,可是如果这次没有把这个事件对应的套接字缓冲区处理完,在这个套接字中没有新的事件再次到来时,在ET模式下是无法再次从epoll_wait调用中获取这个事件的。而LT模式正好相反,只要一个事件对应的套接字缓冲区还有数据,就总能从epoll_wait中获取这个事件。
     因此,LT模式下开发基于epoll的应用要简单些,不太容易出错。而在ET模式下事件发生时,如果没有彻底地将缓冲区数据处理完,则会导致缓冲区中的用户请求得不到响应。

总结一下epoll的优点:
    1.可监控的描述字无上限,这是由于epoll实现了一个小的文件系统,并且将描述字用inode节点存储.
    2.使用mmap技术,是的描述字不用在内核和用户空间来回拷贝,节省了时间和空间.
    3.内部使用红黑树,大大节省了插入判重,和信号发生的时候的查找效率.
    4.内部不是使用轮询技术,而是使用回调技术,将回调函数注册给驱动,当事件发生的时候直接调用回调函数,这一个改进使得epoll从本质上区别于poll和select,大大提高了效率,从而支持数以百万计的并发.


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值