epoll
大家一谈到I/O复用必使用epoll,epoll真的那么好吗?epoll有什么有点呢?我们这里来说一说epoll的优点以及为了实现这些优点背后都做了什么.
首先我们来讲一讲select的缺点:
1.每次select返回时候都要重新设置描述字,即每次调用select都要在内核和用户空间进行拷贝描述字.耗时耗力.
2.在select实现中,每次都轮询线性检查所有描述字,如果没有描述字准备好就睡眠,等待内核计时器(这里不同于select计时器)唤醒再次检查.时间复杂度O(n),当传入大量描述字时候这种性能是不可接受的.
3.select有上限,即只能使用有限个描述字
4.对于poll来说,仅仅改变了select对描述字的限制,poll使用一个结构体来存储描述字,所以不存在描述字个数的限制,但是其他基本未变(内核和用户空间的拷贝,轮询线性检测描述字).
select/poll缺点就是epoll改进的地方,即这些缺点epoll都没有了.我们来讲一讲epoll是如何实现这些技术的.
1.epoll实现了一个小型的文件系统,对于添加来的描述字进行管理.
2.epoll使用mmap内存映射技术,不用在内核空间和用户空间来回做无用的拷贝
3.最重要的是epoll内部使用了回调机制,不用每次线性检查描述字是否准备好.时间复杂度达到了O(1).epoll将事件的回调函数注册给驱动,等待设备准备好就会自动调用回调函数,并将红黑树中的描述字节点添加到就绪链表中.
epoll核心结构:
epoll有两个核心结构:
1.类似于nginx的双向链表(在我的博客中前文有介绍),用于存储就绪描述字.
2.红黑树:用于对新添加进来的元素进行查询是否存在.epoll使用epitem来存储传递进来的描述字,并作为红黑树中的节点插入其中.
struct eventpoll {
spin_lock_t lock;//对本数据结构的访问
struct mutex mtx;//防止使用时被删除
wait_queue_head_t wq;//sys_epoll_wait() 使用的等待队列
wait_queue_head_t poll_wait;//file->poll()使用的等待队列
struct list_head rdllist;//事件满足条件的链表
struct rb_root rbr;//用于管理所有fd的红黑树
struct epitem *ovflist;//将事件到达的fd进行链接起来发送至用户空间
}
struct epitem{
struct rb_node rbn;//用于主结构管理的红黑树
struct list_head rdllink;//事件就绪队列
struct epitem *next;//用于主结构体中的链表
struct epoll_filefd ffd;//每个fd生成的一个结构
int nwait;//
struct list_head pwqlist;//poll等待队列
struct eventpoll *ep;//该项属于哪个主结构体
struct list_head fllink;//链接fd对应的file链表
struct epoll_event event;//注册的感兴趣的事件,也就是用户空间的epoll_event
}
epoll的使用:
#include <sys/epoll.h>
int epoll_create(int size);
int epoll_ctl(int epfd, int op,int fd, struct epoll_event *event);
int epoll_wait(int epfd, structepoll_event * events, int maxevents, int timeout);
LT(level triggered)
是epoll缺省的工作方式,并且同时支持block和no-block socket.在这种做法中,内核告诉你一个文件描述符是否就绪了,然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作,内核还是会继续通知你的,所以,这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表.
ET (edge-triggered)是高速工作方式,只支持no-block socket,它效率要比LT更高。ET与LT的区别在于,当一个新的事件到来时,ET模式下当然可以从epoll_wait调用中获取到这个事件,可是如果这次没有把这个事件对应的套接字缓冲区处理完,在这个套接字中没有新的事件再次到来时,在ET模式下是无法再次从epoll_wait调用中获取这个事件的。而LT模式正好相反,只要一个事件对应的套接字缓冲区还有数据,就总能从epoll_wait中获取这个事件。
因此,LT模式下开发基于epoll的应用要简单些,不太容易出错。而在ET模式下事件发生时,如果没有彻底地将缓冲区数据处理完,则会导致缓冲区中的用户请求得不到响应。
大家一谈到I/O复用必使用epoll,epoll真的那么好吗?epoll有什么有点呢?我们这里来说一说epoll的优点以及为了实现这些优点背后都做了什么.
首先我们来讲一讲select的缺点:
1.每次select返回时候都要重新设置描述字,即每次调用select都要在内核和用户空间进行拷贝描述字.耗时耗力.
2.在select实现中,每次都轮询线性检查所有描述字,如果没有描述字准备好就睡眠,等待内核计时器(这里不同于select计时器)唤醒再次检查.时间复杂度O(n),当传入大量描述字时候这种性能是不可接受的.
3.select有上限,即只能使用有限个描述字
4.对于poll来说,仅仅改变了select对描述字的限制,poll使用一个结构体来存储描述字,所以不存在描述字个数的限制,但是其他基本未变(内核和用户空间的拷贝,轮询线性检测描述字).
select/poll缺点就是epoll改进的地方,即这些缺点epoll都没有了.我们来讲一讲epoll是如何实现这些技术的.
1.epoll实现了一个小型的文件系统,对于添加来的描述字进行管理.
2.epoll使用mmap内存映射技术,不用在内核空间和用户空间来回做无用的拷贝
3.最重要的是epoll内部使用了回调机制,不用每次线性检查描述字是否准备好.时间复杂度达到了O(1).epoll将事件的回调函数注册给驱动,等待设备准备好就会自动调用回调函数,并将红黑树中的描述字节点添加到就绪链表中.
epoll核心结构:
epoll有两个核心结构:
1.类似于nginx的双向链表(在我的博客中前文有介绍),用于存储就绪描述字.
2.红黑树:用于对新添加进来的元素进行查询是否存在.epoll使用epitem来存储传递进来的描述字,并作为红黑树中的节点插入其中.
struct eventpoll {
spin_lock_t lock;//对本数据结构的访问
struct mutex mtx;//防止使用时被删除
wait_queue_head_t wq;//sys_epoll_wait() 使用的等待队列
wait_queue_head_t poll_wait;//file->poll()使用的等待队列
struct list_head rdllist;//事件满足条件的链表
struct rb_root rbr;//用于管理所有fd的红黑树
struct epitem *ovflist;//将事件到达的fd进行链接起来发送至用户空间
}
struct epitem{
struct rb_node rbn;//用于主结构管理的红黑树
struct list_head rdllink;//事件就绪队列
struct epitem *next;//用于主结构体中的链表
struct epoll_filefd ffd;//每个fd生成的一个结构
int nwait;//
struct list_head pwqlist;//poll等待队列
struct eventpoll *ep;//该项属于哪个主结构体
struct list_head fllink;//链接fd对应的file链表
struct epoll_event event;//注册的感兴趣的事件,也就是用户空间的epoll_event
}
epoll的使用:
#include <sys/epoll.h>
int epoll_create(int size);
int epoll_ctl(int epfd, int op,int fd, struct epoll_event *event);
int epoll_wait(int epfd, structepoll_event * events, int maxevents, int timeout);
下面我们来讲一讲这三个函数具体怎么使用.
1. int epoll_create(int size);
创建一个epoll文件系统,返回的是一个描述字fd,使用完毕后必须关闭。(在linux下如果查看/proc/进程id/fd/,是能够看到这个fd的,所以在使用完epoll后,必须调用close()关闭,否则可能导致fd被耗尽。)
自从linux2.6.8之后,size参数是被忽略的。
2. int epoll_ctl(int epfd, int op,int fd, struct epoll_event *event);
epoll的事件注册函数,它不同于select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。
第一个参数是epoll_create()的返回值。
第二个参数表示动作,用三个宏来表示:
EPOLL_CTL_ADD:注册新的fd到epfd中;
EPOLL_CTL_MOD:修改已经注册的fd的监听事件;
EPOLL_CTL_DEL:从epfd中删除一个fd;
第三个参数是需要监听的fd。
第四个参数是告诉内核需要监听什么事件,
struct epoll_event结构如下:
//保存触发事件的某个文件描述符相关的数据(与具体使用方式有关)
typedef union epoll_data {
void *ptr;
int fd;
__uint32_t u32;
__uint64_t u64;
} epoll_data_t;
// 感兴趣的事件和被触发的事件
struct epoll_event {
__uint32_t events; /* Epoll events */
epoll_data_t data; /* User data variable */
};
events可以是以下几个宏的集合:
EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);
EPOLLOUT:表示对应的文件描述符可以写;
EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
EPOLLERR:表示对应的文件描述符发生错误;
EPOLLHUP:表示对应的文件描述符被挂断;
EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(LevelTriggered)来说的。
EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里
3. int epoll_wait(int epfd, structepoll_event * events, int maxevents, int timeout);
收集在epoll监控的事件中已经发生的事件。
参数events是分配好的epoll_event结构体数组,epoll将会把发生的事件赋值到events数组中(events不可以是空指针,内核只负责把数据复制到这个events数组中,不会去帮助我们在用户态中分配内存)。
maxevents告之内核这个events有多大,这个 maxevents的值不能大于创建epoll_create()时的size.
参数timeout是超时时间(毫秒,0会立即返回,-1将不确定,也有说法说是永久阻塞)。如果函数调用成功,返回对应I/O上已准备好的文件描述符数目,如返回0表示已超时。
还有一个与这个类似的函数epoll_pwait:
int epoll_pwait(int epfd, struct epoll_event *events,
int maxevents, int timeout,
const sigset_t *sigmask);
与epoll_wait的区别是可以通过最后一个参数设置阻塞过程中信号屏蔽字,相当于pselect和select的关系
上面的函数原型等价于:
sigset_toriginmask;
sigpromask(SIG_SETMASK,&sigmask,& originmask);
ready = epoll_wait(epfd,&events,maxevents,timeout);
sigpromask(SIG_SETMASK,& originmask ,NULL);
epoll有两种工作模式:
1. int epoll_create(int size);
创建一个epoll文件系统,返回的是一个描述字fd,使用完毕后必须关闭。(在linux下如果查看/proc/进程id/fd/,是能够看到这个fd的,所以在使用完epoll后,必须调用close()关闭,否则可能导致fd被耗尽。)
自从linux2.6.8之后,size参数是被忽略的。
2. int epoll_ctl(int epfd, int op,int fd, struct epoll_event *event);
epoll的事件注册函数,它不同于select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。
第一个参数是epoll_create()的返回值。
第二个参数表示动作,用三个宏来表示:
EPOLL_CTL_ADD:注册新的fd到epfd中;
EPOLL_CTL_MOD:修改已经注册的fd的监听事件;
EPOLL_CTL_DEL:从epfd中删除一个fd;
第三个参数是需要监听的fd。
第四个参数是告诉内核需要监听什么事件,
struct epoll_event结构如下:
//保存触发事件的某个文件描述符相关的数据(与具体使用方式有关)
typedef union epoll_data {
void *ptr;
int fd;
__uint32_t u32;
__uint64_t u64;
} epoll_data_t;
// 感兴趣的事件和被触发的事件
struct epoll_event {
__uint32_t events; /* Epoll events */
epoll_data_t data; /* User data variable */
};
events可以是以下几个宏的集合:
EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);
EPOLLOUT:表示对应的文件描述符可以写;
EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
EPOLLERR:表示对应的文件描述符发生错误;
EPOLLHUP:表示对应的文件描述符被挂断;
EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(LevelTriggered)来说的。
EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里
3. int epoll_wait(int epfd, structepoll_event * events, int maxevents, int timeout);
收集在epoll监控的事件中已经发生的事件。
参数events是分配好的epoll_event结构体数组,epoll将会把发生的事件赋值到events数组中(events不可以是空指针,内核只负责把数据复制到这个events数组中,不会去帮助我们在用户态中分配内存)。
maxevents告之内核这个events有多大,这个 maxevents的值不能大于创建epoll_create()时的size.
参数timeout是超时时间(毫秒,0会立即返回,-1将不确定,也有说法说是永久阻塞)。如果函数调用成功,返回对应I/O上已准备好的文件描述符数目,如返回0表示已超时。
还有一个与这个类似的函数epoll_pwait:
int epoll_pwait(int epfd, struct epoll_event *events,
int maxevents, int timeout,
const sigset_t *sigmask);
与epoll_wait的区别是可以通过最后一个参数设置阻塞过程中信号屏蔽字,相当于pselect和select的关系
上面的函数原型等价于:
sigset_toriginmask;
sigpromask(SIG_SETMASK,&sigmask,& originmask);
ready = epoll_wait(epfd,&events,maxevents,timeout);
sigpromask(SIG_SETMASK,& originmask ,NULL);
epoll有两种工作模式:
LevelTriggered工作模式
以LT方式调用epoll接口的时候,它就相当于一个速度比较快的poll,并且无论后面的数据是否被使用,因此他们具有同样的职能。因为即使使用ET模式的epoll,在收到多个chunk的数据的时候仍然会产生多个事件。调用者可以设定EPOLLONESHOT标志,在 epoll_wait收到事件后epoll会与事件关联的文件句柄从epoll描述符中禁止掉。因此当EPOLLONESHOT设定后,使用带有EPOLL_CTL_MOD标志的epoll_ctl处理文件句柄就成为调用者必须作的事情。
以LT方式调用epoll接口的时候,它就相当于一个速度比较快的poll,并且无论后面的数据是否被使用,因此他们具有同样的职能。因为即使使用ET模式的epoll,在收到多个chunk的数据的时候仍然会产生多个事件。调用者可以设定EPOLLONESHOT标志,在 epoll_wait收到事件后epoll会与事件关联的文件句柄从epoll描述符中禁止掉。因此当EPOLLONESHOT设定后,使用带有EPOLL_CTL_MOD标志的epoll_ctl处理文件句柄就成为调用者必须作的事情。
LT(level triggered)
是epoll缺省的工作方式,并且同时支持block和no-block socket.在这种做法中,内核告诉你一个文件描述符是否就绪了,然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作,内核还是会继续通知你的,所以,这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表.
ET (edge-triggered)是高速工作方式,只支持no-block socket,它效率要比LT更高。ET与LT的区别在于,当一个新的事件到来时,ET模式下当然可以从epoll_wait调用中获取到这个事件,可是如果这次没有把这个事件对应的套接字缓冲区处理完,在这个套接字中没有新的事件再次到来时,在ET模式下是无法再次从epoll_wait调用中获取这个事件的。而LT模式正好相反,只要一个事件对应的套接字缓冲区还有数据,就总能从epoll_wait中获取这个事件。
因此,LT模式下开发基于epoll的应用要简单些,不太容易出错。而在ET模式下事件发生时,如果没有彻底地将缓冲区数据处理完,则会导致缓冲区中的用户请求得不到响应。
总结一下epoll的优点:
1.可监控的描述字无上限,这是由于epoll实现了一个小的文件系统,并且将描述字用inode节点存储.
2.使用mmap技术,是的描述字不用在内核和用户空间来回拷贝,节省了时间和空间.
3.内部使用红黑树,大大节省了插入判重,和信号发生的时候的查找效率.
4.内部不是使用轮询技术,而是使用回调技术,将回调函数注册给驱动,当事件发生的时候直接调用回调函数,这一个改进使得epoll从本质上区别于poll和select,大大提高了效率,从而支持数以百万计的并发.