epoll

最新推荐文章于 2024-07-19 17:21:19 发布

随心而动随意而行

最新推荐文章于 2024-07-19 17:21:19 发布

阅读量766

点赞数

分类专栏：计算机网络 Nginx

本文链接：https://blog.csdn.net/u013009575/article/details/17269589

版权

Nginx 同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

计算机网络

10 篇文章 0 订阅

订阅专栏

epoll
     大家一谈到I/O复用必使用epoll,epoll真的那么好吗?epoll有什么有点呢?我们这里来说一说epoll的优点以及为了实现这些优点背后都做了什么.

首先我们来讲一讲select的缺点:
     1.每次select返回时候都要重新设置描述字,即每次调用select都要在内核和用户空间进行拷贝描述字.耗时耗力.
     2.在select实现中,每次都轮询线性检查所有描述字,如果没有描述字准备好就睡眠,等待内核计时器(这里不同于select计时器)唤醒再次检查.时间复杂度O(n),当传入大量描述字时候这种性能是不可接受的.
     3.select有上限,即只能使用有限个描述字
     4.对于poll来说,仅仅改变了select对描述字的限制,poll使用一个结构体来存储描述字,所以不存在描述字个数的限制,但是其他基本未变(内核和用户空间的拷贝,轮询线性检测描述字).

     select/poll缺点就是epoll改进的地方,即这些缺点epoll都没有了.我们来讲一讲epoll是如何实现这些技术的.

     1.epoll实现了一个小型的文件系统,对于添加来的描述字进行管理.
     2.epoll使用mmap内存映射技术,不用在内核空间和用户空间来回做无用的拷贝
     3.最重要的是epoll内部使用了回调机制,不用每次线性检查描述字是否准备好.时间复杂度达到了O(1).epoll将事件的回调函数注册给驱动,等待设备准备好就会自动调用回调函数,并将红黑树中的描述字节点添加到就绪链表中.

epoll核心结构:
     epoll有两个核心结构:
          1.类似于nginx的双向链表(在我的博客中前文有介绍),用于存储就绪描述字.
          2.红黑树:用于对新添加进来的元素进行查询是否存在.epoll使用epitem来存储传递进来的描述字,并作为红黑树中的节点插入其中.

     struct eventpoll {
    spin_lock_t lock;//对本数据结构的访问
    struct mutex mtx;//防止使用时被删除
    wait_queue_head_t wq;//sys_epoll_wait() 使用的等待队列
    wait_queue_head_t poll_wait;//file->poll()使用的等待队列
    struct list_head rdllist;//事件满足条件的链表
    struct rb_root rbr;//用于管理所有fd的红黑树
    struct epitem *ovflist;//将事件到达的fd进行链接起来发送至用户空间
     }

     struct epitem{
     struct rb_node rbn;//用于主结构管理的红黑树
    struct list_head rdllink;//事件就绪队列
    struct epitem *next;//用于主结构体中的链表
    struct epoll_filefd ffd;//每个fd生成的一个结构
    int nwait;//
    struct list_head pwqlist;//poll等待队列
    struct eventpoll *ep;//该项属于哪个主结构体
    struct list_head fllink;//链接fd对应的file链表
    struct epoll_event event;//注册的感兴趣的事件,也就是用户空间的epoll_event
    }

epoll的使用:
     #include <sys/epoll.h>
     int epoll_create(int size);
     int epoll_ctl(int epfd, int op,int fd, struct epoll_event *event);
     int epoll_wait(int epfd, structepoll_event * events, int maxevents, int timeout);

下面我们来讲一讲这三个函数具体怎么使用.

1. int epoll_create(int size);
     创建一个epoll文件系统,返回的是一个描述字fd,使用完毕后必须关闭。(在linux下如果查看/proc/进程id/fd/，是能够看到这个fd的，所以在使用完epoll后，必须调用close()关闭，否则可能导致fd被耗尽。)
     自从linux2.6.8之后，size参数是被忽略的。

2. int epoll_ctl(int epfd, int op,int fd, struct epoll_event *event);

     epoll的事件注册函数，它不同于select()是在监听事件时告诉内核要监听什么类型的事件，而是在这里先注册要监听的事件类型。
     第一个参数是epoll_create()的返回值。
     第二个参数表示动作，用三个宏来表示：
          EPOLL_CTL_ADD：注册新的fd到epfd中；
          EPOLL_CTL_MOD：修改已经注册的fd的监听事件；
          EPOLL_CTL_DEL：从epfd中删除一个fd；
     第三个参数是需要监听的fd。
     第四个参数是告诉内核需要监听什么事件，
     struct epoll_event结构如下：

     //保存触发事件的某个文件描述符相关的数据（与具体使用方式有关）
     typedef union epoll_data {
          void *ptr;
          int fd;
          __uint32_t u32;
          __uint64_t u64;
     } epoll_data_t;

     // 感兴趣的事件和被触发的事件
     struct epoll_event {
          __uint32_t events; /* Epoll events */
          epoll_data_t data; /* User data variable */
     };

     events可以是以下几个宏的集合：
          EPOLLIN ：表示对应的文件描述符可以读（包括对端SOCKET正常关闭）；
          EPOLLOUT：表示对应的文件描述符可以写；
          EPOLLPRI：表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）；
          EPOLLERR：表示对应的文件描述符发生错误；
          EPOLLHUP：表示对应的文件描述符被挂断；
          EPOLLET：将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(LevelTriggered)来说的。
          EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里

3. int epoll_wait(int epfd, structepoll_event * events, int maxevents, int timeout);

     收集在epoll监控的事件中已经发生的事件。
     参数events是分配好的epoll_event结构体数组，epoll将会把发生的事件赋值到events数组中（events不可以是空指针，内核只负责把数据复制到这个events数组中，不会去帮助我们在用户态中分配内存）。
     maxevents告之内核这个events有多大，这个 maxevents的值不能大于创建epoll_create()时的size.
     参数timeout是超时时间（毫秒，0会立即返回，-1将不确定，也有说法说是永久阻塞）。如果函数调用成功，返回对应I/O上已准备好的文件描述符数目，如返回0表示已超时。

还有一个与这个类似的函数epoll_pwait：
     int epoll_pwait(int epfd, struct epoll_event *events,
                      int maxevents, int timeout,
                      const sigset_t *sigmask);
     与epoll_wait的区别是可以通过最后一个参数设置阻塞过程中信号屏蔽字,相当于pselect和select的关系

上面的函数原型等价于：
     sigset_toriginmask;
     sigpromask(SIG_SETMASK,&sigmask,& originmask);
     ready = epoll_wait(epfd,&events,maxevents,timeout);
     sigpromask(SIG_SETMASK,& originmask ,NULL);

epoll有两种工作模式:

LevelTriggered工作模式
以LT方式调用epoll接口的时候，它就相当于一个速度比较快的poll，并且无论后面的数据是否被使用，因此他们具有同样的职能。因为即使使用ET模式的epoll，在收到多个chunk的数据的时候仍然会产生多个事件。调用者可以设定EPOLLONESHOT标志，在 epoll_wait收到事件后epoll会与事件关联的文件句柄从epoll描述符中禁止掉。因此当EPOLLONESHOT设定后，使用带有EPOLL_CTL_MOD标志的epoll_ctl处理文件句柄就成为调用者必须作的事情。

LT(level triggered)
     是epoll缺省的工作方式，并且同时支持block和no-block socket.在这种做法中，内核告诉你一个文件描述符是否就绪了，然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作，内核还是会继续通知你的，所以，这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表．

     ET (edge-triggered)是高速工作方式，只支持no-block socket，它效率要比LT更高。ET与LT的区别在于，当一个新的事件到来时，ET模式下当然可以从epoll_wait调用中获取到这个事件，可是如果这次没有把这个事件对应的套接字缓冲区处理完，在这个套接字中没有新的事件再次到来时，在ET模式下是无法再次从epoll_wait调用中获取这个事件的。而LT模式正好相反，只要一个事件对应的套接字缓冲区还有数据，就总能从epoll_wait中获取这个事件。
     因此，LT模式下开发基于epoll的应用要简单些，不太容易出错。而在ET模式下事件发生时，如果没有彻底地将缓冲区数据处理完，则会导致缓冲区中的用户请求得不到响应。

总结一下epoll的优点:

1.可监控的描述字无上限,这是由于epoll实现了一个小的文件系统,并且将描述字用inode节点存储.

2.使用mmap技术,是的描述字不用在内核和用户空间来回拷贝,节省了时间和空间.

3.内部使用红黑树,大大节省了插入判重,和信号发生的时候的查找效率.

4.内部不是使用轮询技术,而是使用回调技术,将回调函数注册给驱动,当事件发生的时候直接调用回调函数,这一个改进使得epoll从本质上区别于poll和select,大大提高了效率,从而支持数以百万计的并发.