IO多路复用机制select、epoll

参考文档:https://www.jianshu.com/p/397449cadc9a

                  http://blog.chinaunix.net/uid-24517549-id-4051156.html

I/O多路复用的本质是通过一种机制(系统内核缓冲I/O数据),让单个进程可以监视多个文件描述符,一旦某个描述符就绪(一般是读就绪或写就绪),能够通知程序进行相应的读写操作

与多进程和多线程技术相比,I/O多路复用技术的最大优势是系统开销小,系统不必创建进程/线程,也不必维护这些进程/线程,从而大大减小了系统的开销。但是基于用户态的轮询处理,同一时间处理大量的描述符会不公平,因为它是一个一个处理的,处理完毕之后才会处理下一个,如果活跃描述符很多,则会造成最后一个等待事件过程。

select

  • 参数nfds是需要监视的最大的文件描述符值+1;
  • rdset,wrset,exset分别对应于需要检测的可读文件描述符的集合,可写文件描述符的集 合及异常文件描述符的集合;

fd_set结构:

/* The fd_set member is required to be an array of longs.  */
typedef long int __fd_mask;		

/* fd_set for select and pselect.  */                                                                       
typedef struct    
  {    
    /* XPG4.2 requires this member name.  Otherwise avoid the name    
       from the global namespace.  */    
#ifdef __USE_XOPEN    
    __fd_mask fds_bits[__FD_SETSIZE / __NFDBITS];    
# define __FDS_BITS(set) ((set)->fds_bits)    
#else    
    __fd_mask __fds_bits[__FD_SETSIZE / __NFDBITS];    
# define __FDS_BITS(set) ((set)->__fds_bits)    
#endif    
  } fd_set;  

 

这个结构就是一个整数数组, 更严格的说, 是一个 "位图". 使用位图中对应的位来表示要监视的文件描述符.
提供了一组操作fd_set的接口, 来比较方便的操作位图

  • 参数timeout为结构timeval,用来设置select()的等待时间
struct timeval {
	__time_t tv_sec;	/* Seconds */
	__suseconds_t tv_usec;	/* Microseconds */
} ;
  • 函数返回值:

1. 执行成功则返回文件描述词状态已改变的个数

2. 如果返回0代表在描述词状态改变前已超过timeout时间,没有返回

3. 当有错误发生时则返回-1,错误原因存于errno,此时参数readfds,writefds, exceptfds和timeout的值变成不可预测。

  • 错误值可能为:

EBADF 文件描述词为无效的或该文件已关闭
EINTR 此调用被信号所中断
EINVAL 参数n 为负值。
ENOMEM 核心内存不足

select实现流程

  • 用户定义事件集合,三种事件集合,集合是一个位图,向事件集合添加描述符
void FD_CLR(int fd, fd_set *set); // 用来清除描述词组set中相关fd 的位
int FD_ISSET(int fd, fd_set *set); // 用来测试描述词组set中相关fd 的位是否为真
void FD_SET(int fd, fd_set *set); // 用来设置描述词组set中相关fd的位
void FD_ZERO(fd_set *set); // 用来清除描述词组set的全部位

 

  • 将集合拷贝到内核进行监控

             监控:对集合所有描述符进行轮询遍历判断,判断是否有事件就绪,性能会随描述符增多而下降

  • 若有某个描述符就绪了,则返回

             返回的时候从所有集合中将没有就绪的描述符移除了, 返回给用户就绪的描述符集合

  • 用户得到就绪描述符集合后,遍历判断哪些描述符还在结合中,来判断获取到就绪的描述符,进而对其进行操作
  • 因为返回的就绪描述符集合将没有就绪的描述符移除,所以再次监控原来关心的集合,就要重新添加一次

epoll

按照man手册的说法:是为处理大批量句柄而作了改进的poll。

#include <sys/epoll.h>

int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event* event);
int epoll_wait(int epfd, struct epoll_event* events, int maxevents, int timeout);

1. int epoll_create(int size);

创建一个epoll的句柄。自从linux2.6.8之后,size参数是被忽略的。需要注意的是,当创建好epoll句柄后,它就是会占用一个fd值,在linux下如果查看/proc/进程id/fd/,是能够看到这个fd的,所以在使用完epoll后,必须调用close()关闭,否则可能导致fd被耗尽。

2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

epoll的事件注册函数,它不同于select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。

第一个参数是epoll_create()的返回值。

第二个参数表示动作,用三个宏来表示:

         EPOLL_CTL_ADD:注册新的fd到epfd中;

         EPOLL_CTL_MOD:修改已经注册的fd的监听事件;

         EPOLL_CTL_DEL:从epfd中删除一个fd;

第三个参数是需要监听的fd。

第四个参数是告诉内核需要监听什么事,struct epoll_event结构如下:

typedef union epoll_data {  
    void *ptr;  
    int fd;  
    __uint32_t u32;  
    __uint64_t u64;  
} epoll_data_t;  

struct epoll_event {  
    __uint32_t events; /* Epoll events */  
    epoll_data_t data; /* User data variable */  
}; 

events可以是以下几个宏的集合:

    EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);

    EPOLLOUT:表示对应的文件描述符可以写;

    EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);

    EPOLLERR:表示对应的文件描述符发生错误;

    EPOLLHUP:表示对应的文件描述符被挂断;

    EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来说的。

    EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里

3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

收集在epoll监控的事件中已经发送的事件。参数events是分配好的epoll_event结构体数组,epoll将会把发生的事件赋值到events数组中(events不可以是空指针,内核只负责把数据复制到这个events数组中,不会去帮助我们在用户态中分配内存)。maxevents告之内核这个events有多大,这个 maxevents的值不能大于创建epoll_create()时的size,参数timeout是超时时间(毫秒,0会立即返回,-1将不确定,也有说法说是永久阻塞)。如果函数调用成功,返回对应I/O上已准备好的文件描述符数目,如返回0表示已超时。

epoll实现流程

  • 在内核创建eventpoll结构,返回一个操作句柄,结构体包含的主要信息:红黑树、双向链表
  • 向内核中的eventpoll结构中的红黑树添加用户关心的描述符事件结构体
  • 将描述符的监控交给操作系统完成,当描述符就绪后,将就绪的描述符对应的epoll_even添加到双向链表中

             一旦基于某个文件描述符就绪时,内核会采用类似callback的回调机制,迅速激活这个文件描述符,当进程调用epoll_wait()时便得到通知。

            这里也使用了内存映射(mmap)技术,这样便彻底省掉了这些文件描述符在系统调用时复制的开销。

  • 当进程调用epoll_wait()函数时,只需要映射双向链表的事件结构到用户态即可。

epoll的两种工作方式 

  • 水平触发(LT):默认工作模式,即当epoll_wait检测到某描述符事件就绪并通知应用程序时,应用程序可以不立即处理该事件;下次调用epoll_wait时,会再次通知此事件
  • 边缘触发(ET): 当epoll_wait检测到某描述符事件就绪并通知应用程序时,应用程序必须立即处理该事件。如果不处理,下次调用epoll_wait时,不会再次通知此事件。(直到你做了某些操作导致该描述符变成未就绪状态了,也就是说边缘触发只在状态由未就绪变为就绪时只通知一次)。

epoll工作在ET模式的时候,必须使用非阻塞套接口,以避免由于一个文件句柄的阻塞读/阻塞写操作把处理多个文件描述符的任务饿死。最好以下面的方式调用ET模式的epoll接口,在后面会介绍避免可能的缺陷。

   i    基于非阻塞文件句柄

void SetNoBlock(int fd) {
    int fl = fcntl(fd, F_GETFL);
    if (fl < 0) {
        perror("fcntl");
        return;
    }
    fcntl(fd, F_SETFL, fl | O_NONBLOCK);
}

   ii   只有当read()或者write()返回EAGAIN时才需要挂起,等待。但这并不是说每次read()时都需要循环读,直到读到产生一个EAGAIN才认为此次事件处理完成,当read()返回的读到的数据长度小于请求的数据长度时,就可以确定此时缓冲中已没有数据了,也就可以认为此事读事件已处理完成。

ET模式很大程度上减少了epoll事件的触发次数,因此效率比LT模式下高。

select和epoll比较

  1. select有监控描述符上限1024(x86)或2048(x64),而epoll没有上限。
  2. select采用的集合方式,epoll采用的事件结构方式监控,简化多个监控集合的操作流程
  3. 在内核中select进行轮询遍历监控,而epoll采用了回调机制,当有就绪事件时回调,效率比select高。
  4. 因为select每次将数组都是只保留就绪描述符,没有就绪的移除掉了,所以select每次都要添加到描述符到set,而epoll调用epoll_ctl时拷贝进内核并保存,之后每次epoll_wait不拷贝。
  5. select返回的仍然是所有关心描述符的集合,要轮询遍历每个描述符是否就绪,而epoll返回都是就绪的事件结构集合。
发布了82 篇原创文章 · 获赞 61 · 访问量 5753
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览