epoll函数用途比select和poll广,且功能强大,在大数据、高并发、集群等一些名词唱得火热之年代,select和poll的用武之地越来越有限,风头已经被epoll占尽
select的缺点:
- 单个进程能够监视的文件描述符的数量存在最大限制,通常是1024,当然可以更改数量,但由于select采用轮询的方式扫 描文件描述符,文件描述符数量越多,性能越差;
- 内核 / 用户空间内存拷贝问题,select需要复制大量的句柄数据结构,产生巨大的开销;
- select返回的是含有整个句柄的数组,应用程序需要遍历整个数组才能发现哪些句柄发生了事件;
- select的触发方式是水平触发,应用程序如果没有完成对一个已经就绪的文件描述符进行IO操作,那么之后每次select调 用还是会将这些文件描述符通知进程。
poll函数使用链表保存文件描述符,因此没有了监视文件数量的限制,但是其它缺点依然存在。
epoll是Linux内核为处理大批量文件描述符而作了改进的poll,是Linux下多路复用IO接口select/poll的增强版本,它的优点在于能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率,还有一个优点就是不需要每次都遍历所有的被监听的文件描述符集,只需要遍历正在被使用的文件描述符集就行了。
水平触发和边缘触发:
LT(level triggered)水平触发是缺省的工作方式,并且同时支持block和no-block socket.在这种做法中,内核告诉你一个文件描述 符是否就绪了,然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作,内核还是会继续通知你的,所以,这种模式编程 出错误可能性要小一点。传统的select/poll都是这种模型的代表。
ET (edge-triggered)边缘触发是高速工作方式,只支持non-block socket。在这种模式下,当描述符从未就绪变为就绪时,内核通 过epoll告诉你。然后它会假设你知道文件描述符已经就绪,并且不会再为那个文件描述符发送更多的就绪通知,直到你做了某些 操作导致那个文件描述符不再为就绪状态了(比如,你在发送,接收或者接收请求,或者发送接收的数据少于一定量时导致了一 个EWOULDBLOCK 错误)。但是请注意,如果一直不对这个fd作IO操作(从而导致它再次变成未就绪),内核不会发送更多的 通知(only once),不过在TCP协议中,ET模式的加速效用仍需要更多的benchmark确认。
设计思路和函数解析:
epoll的设计和实现与select完全不同,epoll通过在Linux内核中申请一个简易的文件系统,把原先的select/poll调用分成了3 个部分:
- 调用epoll_create()建立一个epoll对象(在epoll文件系统中为这个句柄对象分配资源)
- 调用epoll_ctl向epoll对象中添加连接的套接字
- 调用epoll_wait收集发生的事件的连接
epoll_create()函数:
#include <sys/epoll.h>
int epoll_create(int size);
函数若成功返回文件描述符,若出错返回-1。
参数size指定了我们想要通过epoll实例来检查的文件描述符个数。
epoll_ctl()函数:
#include <sys/epoll.h>
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *ev);
若成功返回0,若出错返回-1。
参数:
第一个参数epfd是epoll_create()的返回值;
第二个参数op用来指定需要执行的操作,它可以是如下几种值:
1,EPOLL_CTL_ADD:将描述符fd添加到epoll实例中的兴趣列表中去。对于fd上我们感兴趣的事件,都指定在ev所指向的 结构体中。如果我们试图向兴趣列表中添加一个已存在的文件描述符,epoll_ctl()将出现EEXIST错误;
2,EPOLL_CTL_MOD:修改描述符上设定的事件,需要用到由ev所指向的结构体中的信息。如果我们试图修改不在兴趣列表 中的文件描述符,epoll_ctl()将出现ENOENT错误;
3,EPOLL_CTL_DEL:将文件描述符fd从epfd的兴趣列表中移除,该操作忽略参数ev。如果我们试图移除一个不在epfd的兴 趣列表中的文件描述符,epoll_ctl()将出现ENOENT错误。关闭一个文件描述符会自动将其从所有的epoll实例的兴趣列表 移除;
第三个参数fd指明了要修改兴趣列表中的哪一个文件描述符的设定。该参数可以是代表管道、FIFO、套接字、POSIX消息队 列、inotify实例、终端、设备,甚至是另一个epoll实例的文件描述符。但是,这里fd不能作为普通文件或目录的文件描述符;
第四个参数ev是指向结构体epoll_event的指针,结构体的定义如下:
typedef union epoll_data
{
void *ptr; /* Pointer to user-defind data */
int fd; /* File descriptor */
uint32_t u32; /* 32-bit integer */
uint64_t u64; /* 64-bit integer */
} epoll_data_t;
struct epoll_event
{
uint32_t events; /* epoll events(bit mask) */
epoll_data_t data; /* User data */
};