I/O复用使得程序能同时监听多个文件描述符,通常,网络程序在下列情况下需要使用I/O复用技术:
(1)客户端程序要同时处理多个socket。
(2)客户端程序要同时处理用户输入和网络连接。
(3)TCP服务器要同时处理监听socket和连接socket。这是I/O复用使用最多的场合。
(4)服务器要同时处理TCP请求和 UDP请求。
(5)服务器要同时监听多个端口,或者处理多种服务。
Linux下实现I/O复用的系统调用主要有select、poll、epoll。
1、select系统调用
select系统调用的用途是:在一段指定时间内,监听用户感兴趣的文件描述符上的可读、可写和异常等事件。
头文件:# include<sys/select.h>
函数原型:int select(int nfds,fd_set* readfds,fd_set* writefds,fd_set* exceptfds,struct timeval* timeout);
(1)nfds参数指定被监听的文件描述符的总数。它通常被设置为select监听的所有文件描述符中的最大值加1,因为文件描述符是从0开始计数的。
(2)readfds、writefds和exceptfds参数分别指向可读、可写和异常等事件对应的文件描述符集合。应用程序调用select函数时,通过这3个参数传入自己感兴趣的文件描述符。select调用返回时,内核将修改它们来通知应用程序哪些文件描述符已经就绪。这三个参数是fd_set结构指针类型。
(3)timeout参数用来设置select函数的超时时间。它是一个timeval结构类型的指针,采用指针参数是因为内核将修改它以告诉应用程序select等待了多久。不过我们不能完全信任select调用返回后的timeout值,比如调用失败时timeout值是不确定的。timeval结构体的定义如下:
struct timeval
{
long tv_sec; //秒数
long tv_usec; //微秒数
};
由以上定义可见,select给我们提供了一个微秒级的定时方式。如果给timeout变量的tv_sec成员和tv_usec成员都传递0,则select将立即返回。如果给timeout传递NULL,则select将一直阻塞,直到某个文件描述符就绪。
select成功时返回就绪(可读、可写和异常)文件描述符的总数。如果在超时时间内没有任何文件描述符就绪,select将返回0。select失败时返回-1并设置errno。如果在select等待期间,程序接收到信号,则select立即返回-1,并设置errno为EINTR。
文件描述符就绪条件:
在网络编程中,下列情况下socket可读:
(1)socket内核接收缓存区中的字节数大于或等于其低水位标记SO_RCVLOWAT。此时我们可以无阻塞地读该socket,并且读操作返回的字节数大于0。
(2)socket通信的对方关闭连接。此时对该socket的读操作将返回0。
(3)监听socket上有新的连接请求。
(4)socket上有未处理的错误。此时我们可以使用getsockopt来读取和清除该错误。
下列情况下,socket可写:
(1)socket内核发送缓存区中的可用字节数大于或等于其低水位标记SO_SNDLOWAT。此时我们可以无阻塞地写该socket,并且写操作返回的字节数大于0.
(2)socket的写操作被关闭。对写操作被关闭的socket执行写操作将触发一个SIGPIPE信号。
(3)socket使用非阻塞connect连接成功或者失败(超时)之后。
(4)socket上有未处理的错误。此时我们可以用getsockopt来读取和清除该错误。
网络程序中,select能处理的异常情况只有一种:socket上接收到的带外数据。
2、poll系统调用
头文件:# include<poll.h>
函数原型:int poll(struct pollfd* fds,nfds_t nfds,int timeout);
参数解释:
(1)fds参数是一个pollfd结构类型的数组,它指定所有我们感兴趣的文件描述符上发生的可读、可写和异常事件。pollfd结构体的定义如下:
struct pollfd
{
int fd; //文件描述符
short events; //注册的事件
short revents; //实际发生的事件,由内核填充
};
其中,fd成员指定文件描述符;events成员告诉poll监听fd上的哪些事件,它是一系列事件的按位或;revents成员则由内核修改,以通知应用程序fd上实际发生了哪些事件。
(2)nfds参数指定被监听事件集合fds的大小。其类型nfds_t的定义如下:
typedef unsigned long int nfds_t;
(3)timeout参数指定poll的超时值,单位是毫秒。当timeout为-1时,poll调用将永远阻塞,直到某个事件发生;当timeout为0时,poll调用将立即返回。
poll系统调用的返回值的含义与select相同。
3、epoll系列系统调用
epoll是Linux特有的I/O复用函数。它在实现和使用上与select、poll有很大差异。首先,epoll使用一组函数来完成任务,而不是单个函数。其次,epoll把用户关心的文件描述符上的事件放在内核里的一个事件表中,从而无须像select和poll那样每次调用都要重复传入文件描述符集或事件集。但epoll需要使用一个额外的文件描述符,来唯一标识内核中的这个事件表。这个文件描述符使用如下epoll_create函数来创建:
# include<sys/epoll.h>
int epoll_create(int size);
size参数现在并不起作用,只是给内核一个提示,告诉它事件表需要多大。该函数返回的文件描述符将用作其他epoll系统调用的第一个参数,以指定要访问的内核事件表。
下面的函数用来操作epoll的内核事件表:
# include<sys/epoll.h>
int epoll_ctl(int epfd,int op,int fd,struct epoll_event *event);
fd参数是要操作的文件描述符,op参数则指定操作类型。操作类型有如下3种:
EPOLL_CTL_ADD,往事件表中注册fd上的事件。
EPOLL_CTL_MOD,修改fd上的注册事件。
EPOLL_CTL_DEL,删除 fd上的注册事件。
event参数指定事件,它是epoll_event结构指针类型。epoll_event的定义如下:
struct epoll_event
{
_uint32_t events; //epoll事件
epoll_data_t data; //用户数据
};
epoll_ctl成功时返回0,失败时返回-1并设置errno。
epoll系列系统调用的主要接口是epoll_wait函数,它在一段超时时间内等待一组文件描述符上的事件,其原型如下:
# include<sys/epoll.h>
int epoll_wait(int epfd,struct epoll_event* events,int maxevents,int timeout);
该函数成功时返回就绪的文件描述符的个数,失败时返回-1并设置errno。
timeout参数指定epoll的超时值,单位是毫秒。当timeout为-1时,epoll调用将永远阻塞,直到某个事件发生;当timeout为0时,epoll调用将立即返回。
maxevents参数指定最多监听多少个事件,它必须大于0。
epoll_wait函数如果检测到事件,就将所有就绪的事件从内核事件表(由epfd参数指定)中复制到它的第二个参数events指向的数组中。这个数组只用于输出epoll_wait检测到的就绪事件,而不像select和poll的数组参数那样既用于传入用户注册的事件,又用于输出内核监测到的就绪事件。这就极大的提高了应用程序索引就绪文件描述符的效率。
4、select、poll、epoll的区别
(1)事件集合不同。select是用户通过3个参数分别传入感兴趣的可读、可写及异常等事件,内核通过对这些参数的在线修改来反馈其中的就绪事件。这使得用户每次调用select都要重置这3个参数。poll统一处理所有事件类型,因此只需一个事件集参数。用户通过pollfd.events传入感兴趣的事件,内核通过修改pollfd.events反馈其中就绪的事件。epoll内核通过一个事件表直接管理用户感兴趣的所有事件。因此每次调用epoll_wait时,无须反复传入用户感兴趣的事件。epoll_wait系统调用的参数events仅用来反馈就绪的事件。
(2)应用程序索引就绪文件描述符的时间复杂度不同。select是O(n),poll是O(n),epoll是O(1)。
(3)最大支持文件描述符数不同。select一般有最大限制值,poll和epoll都是65535。
(4)工作模式不同。select和poll只支持LT模式,epoll不仅支持LT模式,也支持ET模式。
(5)内核实现和工作效率不同。select采用轮询方式来检测就绪事件,算法时间复杂度为O(n)。poll采用轮询方式来检测就绪事件,算法时间复杂度为O(n)。epoll采用回调方式来检测就绪事件,算法时间复杂度为O(1)。