IO多路复用机制select、epoll

最新推荐文章于 2023-12-07 19:40:19 发布

Baoming ROSE

最新推荐文章于 2023-12-07 19:40:19 发布

阅读量220

点赞数

本文链接：https://blog.csdn.net/qq_43909184/article/details/105126450

版权

参考文档：https://www.jianshu.com/p/397449cadc9a

http://blog.chinaunix.net/uid-24517549-id-4051156.html

I/O多路复用的本质是通过一种机制（系统内核缓冲I/O数据），让单个进程可以监视多个文件描述符，一旦某个描述符就绪（一般是读就绪或写就绪），能够通知程序进行相应的读写操作

与多进程和多线程技术相比，I/O多路复用技术的最大优势是系统开销小，系统不必创建进程/线程，也不必维护这些进程/线程，从而大大减小了系统的开销。但是基于用户态的轮询处理，同一时间处理大量的描述符会不公平，因为它是一个一个处理的，处理完毕之后才会处理下一个，如果活跃描述符很多，则会造成最后一个等待事件过程。

select

参数nfds是需要监视的最大的文件描述符值+1；
rdset,wrset,exset分别对应于需要检测的可读文件描述符的集合，可写文件描述符的集合及异常文件描述符的集合;

fd_set结构：

/* The fd_set member is required to be an array of longs.  */
typedef long int __fd_mask;		

/* fd_set for select and pselect.  */                                                                       
typedef struct    
  {    
    /* XPG4.2 requires this member name.  Otherwise avoid the name    
       from the global namespace.  */    
#ifdef __USE_XOPEN    
    __fd_mask fds_bits[__FD_SETSIZE / __NFDBITS];    
# define __FDS_BITS(set) ((set)->fds_bits)    
#else    
    __fd_mask __fds_bits[__FD_SETSIZE / __NFDBITS];    
# define __FDS_BITS(set) ((set)->__fds_bits)    
#endif    
  } fd_set;

这个结构就是一个整数数组, 更严格的说, 是一个 "位图". 使用位图中对应的位来表示要监视的文件描述符.
提供了一组操作fd_set的接口, 来比较方便的操作位图

参数timeout为结构timeval，用来设置select()的等待时间

struct timeval {
	__time_t tv_sec;	/* Seconds */
	__suseconds_t tv_usec;	/* Microseconds */
} ;

函数返回值：

1. 执行成功则返回文件描述词状态已改变的个数

2. 如果返回0代表在描述词状态改变前已超过timeout时间，没有返回

3. 当有错误发生时则返回-1，错误原因存于errno，此时参数readfds，writefds, exceptfds和timeout的值变成不可预测。

错误值可能为：

EBADF 文件描述词为无效的或该文件已关闭
EINTR 此调用被信号所中断
EINVAL 参数n 为负值。
ENOMEM 核心内存不足

select实现流程

用户定义事件集合，三种事件集合，集合是一个位图，向事件集合添加描述符

void FD_CLR(int fd, fd_set *set); // 用来清除描述词组set中相关fd 的位
int FD_ISSET(int fd, fd_set *set); // 用来测试描述词组set中相关fd 的位是否为真
void FD_SET(int fd, fd_set *set); // 用来设置描述词组set中相关fd的位
void FD_ZERO(fd_set *set); // 用来清除描述词组set的全部位

将集合拷贝到内核进行监控

监控：对集合所有描述符进行轮询遍历判断，判断是否有事件就绪，性能会随描述符增多而下降

若有某个描述符就绪了，则返回

返回的时候从所有集合中将没有就绪的描述符移除了，返回给用户就绪的描述符集合

用户得到就绪描述符集合后，遍历判断哪些描述符还在结合中，来判断获取到就绪的描述符，进而对其进行操作
因为返回的就绪描述符集合将没有就绪的描述符移除，所以再次监控原来关心的集合，就要重新添加一次

epoll

按照man手册的说法：是为处理大批量句柄而作了改进的poll。

#include <sys/epoll.h>

int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event* event);
int epoll_wait(int epfd, struct epoll_event* events, int maxevents, int timeout);

1. int epoll_create(int size);

创建一个epoll的句柄。自从linux2.6.8之后，size参数是被忽略的。需要注意的是，当创建好epoll句柄后，它就是会占用一个fd值，在linux下如果查看/proc/进程id/fd/，是能够看到这个fd的，所以在使用完epoll后，必须调用close()关闭，否则可能导致fd被耗尽。

2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

epoll的事件注册函数，它不同于select()是在监听事件时告诉内核要监听什么类型的事件，而是在这里先注册要监听的事件类型。

第一个参数是epoll_create()的返回值。

第二个参数表示动作，用三个宏来表示：

EPOLL_CTL_ADD：注册新的fd到epfd中；

EPOLL_CTL_MOD：修改已经注册的fd的监听事件；

EPOLL_CTL_DEL：从epfd中删除一个fd；

第三个参数是需要监听的fd。

第四个参数是告诉内核需要监听什么事，struct epoll_event结构如下：

typedef union epoll_data {  
    void *ptr;  
    int fd;  
    __uint32_t u32;  
    __uint64_t u64;  
} epoll_data_t;  

struct epoll_event {  
    __uint32_t events; /* Epoll events */  
    epoll_data_t data; /* User data variable */  
};

events可以是以下几个宏的集合：

EPOLLIN ：表示对应的文件描述符可以读（包括对端SOCKET正常关闭）；

EPOLLOUT：表示对应的文件描述符可以写；

EPOLLPRI：表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）；

EPOLLERR：表示对应的文件描述符发生错误；

EPOLLHUP：表示对应的文件描述符被挂断；

EPOLLET：将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)来说的。

EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里

3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

收集在epoll监控的事件中已经发送的事件。参数events是分配好的epoll_event结构体数组，epoll将会把发生的事件赋值到events数组中（events不可以是空指针，内核只负责把数据复制到这个events数组中，不会去帮助我们在用户态中分配内存）。maxevents告之内核这个events有多大，这个 maxevents的值不能大于创建epoll_create()时的size，参数timeout是超时时间（毫秒，0会立即返回，-1将不确定，也有说法说是永久阻塞）。如果函数调用成功，返回对应I/O上已准备好的文件描述符数目，如返回0表示已超时。

epoll实现流程

在内核创建eventpoll结构，返回一个操作句柄，结构体包含的主要信息：红黑树、双向链表
向内核中的eventpoll结构中的红黑树添加用户关心的描述符事件结构体
将描述符的监控交给操作系统完成，当描述符就绪后，将就绪的描述符对应的epoll_even添加到双向链表中

一旦基于某个文件描述符就绪时，内核会采用类似callback的回调机制，迅速激活这个文件描述符，当进程调用epoll_wait()时便得到通知。

这里也使用了内存映射（mmap）技术，这样便彻底省掉了这些文件描述符在系统调用时复制的开销。

当进程调用epoll_wait()函数时，只需要映射双向链表的事件结构到用户态即可。

epoll的两种工作方式

水平触发（LT）：默认工作模式，即当epoll_wait检测到某描述符事件就绪并通知应用程序时，应用程序可以不立即处理该事件；下次调用epoll_wait时，会再次通知此事件
边缘触发（ET）： 当epoll_wait检测到某描述符事件就绪并通知应用程序时，应用程序必须立即处理该事件。如果不处理，下次调用epoll_wait时，不会再次通知此事件。（直到你做了某些操作导致该描述符变成未就绪状态了，也就是说边缘触发只在状态由未就绪变为就绪时只通知一次）。

epoll工作在ET模式的时候，必须使用非阻塞套接口，以避免由于一个文件句柄的阻塞读/阻塞写操作把处理多个文件描述符的任务饿死。最好以下面的方式调用ET模式的epoll接口，在后面会介绍避免可能的缺陷。

i 基于非阻塞文件句柄

void SetNoBlock(int fd) {
    int fl = fcntl(fd, F_GETFL);
    if (fl < 0) {
        perror("fcntl");
        return;
    }
    fcntl(fd, F_SETFL, fl | O_NONBLOCK);
}

ii 只有当read()或者write()返回EAGAIN时才需要挂起，等待。但这并不是说每次read()时都需要循环读，直到读到产生一个EAGAIN才认为此次事件处理完成，当read()返回的读到的数据长度小于请求的数据长度时，就可以确定此时缓冲中已没有数据了，也就可以认为此事读事件已处理完成。

ET模式很大程度上减少了epoll事件的触发次数，因此效率比LT模式下高。

select和epoll比较

select有监控描述符上限1024（x86）或2048（x64），而epoll没有上限。
select采用的集合方式，epoll采用的事件结构方式监控，简化多个监控集合的操作流程
在内核中select进行轮询遍历监控，而epoll采用了回调机制，当有就绪事件时回调，效率比select高。
因为select每次将数组都是只保留就绪描述符，没有就绪的移除掉了，所以select每次都要添加到描述符到set，而epoll调用epoll_ctl时拷贝进内核并保存，之后每次epoll_wait不拷贝。
select返回的仍然是所有关心描述符的集合，要轮询遍历每个描述符是否就绪，而epoll返回都是就绪的事件结构集合。

Baoming ROSE

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
IO多路复用机制select、epoll

I/O多路复用的本质是通过一种机制（系统内核缓冲I/O数据），让单个进程可以监视多个文件描述符，一旦某个描述符就绪（一般是读就绪或写就绪），能够通知程序进行相应的读写操作与多进程和多线程技术相比，I/O多路复用技术的最大优势是系统开销小，系统不必创建进程/线程，也不必维护这些进程/线程，从而大大减小了系统的开销。但是基于用户态的轮询处理，同一时间处理大量的描述符会不公平，因为它是一个一个处理...
复制链接

扫一扫