epoll是linux特有的I/O复用函数,它在实现上与select、poll有很大差异。
首先,epoll使用一组函数来完成任务,而不是单个函数。
其次,epoll把用户关心的文件描述符上的事件放在内核里的一个事件表中,从而无需像select和poll那样每次调用都要重复传入文件描述符或事件集。但epoll需要使用一个额外的文件描述符,来唯一标识内核中的这个事件表。
函数返回的文件描述将作用于其它所有epoll系统调用的第一参数,以指定要访问的内核事件表。
op参数指定操作类型,操作类型有如下3种:
A)EPOLL_CTL_ADD,往事件表中注册fd上的事件。
B)EPOLL_CTL_MOD,修改fd上的注册事件。
C) EPOLL_CTL_DEL,删除fd上的注册事件。
epoll支持的事件类型和poll基本相同,表示epoll事件类型的宏是在poll对应宏的前面加上“E”,比如epoll的可读事件EPOLLIN,但epoll有两个额外的事件类型,EPOLLET和EPOLLONESHOT,它们对于高效运作非常关键,后面我会讨论它们。
epoll_data_t是一个联合体,其4个成员中使用最多的是fd,它指定事件所从属的目标文件描述符。
ptr成员可用来指定与fd相关的用户数据。但由于它是一个联合体,我们不能同时使用它们两个,因此,如果要将它们关联起来以实现快速数据访问,只能使用其它手段,比如放弃使用fd,而在ptr指向的用户数据里包含fd。
epoll_ctl调用成功时返回0,失败返回-1,并设置errno
epoll_wait如果检测到事件,就将所有就绪的事件从内核事件表中复制到第二个参数events指向的数组中。这个数组只用于输出epoll_wait检测到的就绪事件,而不像select和poll的数组参数那样即用于传入,又用于输出。这就极大提高了应用程序索引就绪文件描述符的效率。
4. LT和ET模式
epoll对文件描述符的操作有两种模式:LT(Level Trigger)和ET(Edge Trigger)。
LT模式是默认的工作模式,这种模式下的epoll相当于一个效率较高的poll。
当往epoll内核事件表中注册一个文件描述符上的EPOLLET事件时,epoll将以ET模式来操作该文件描述符。ET模式是epoll的高效工作模式。
LT模式:当epoll_wait检测到其上有事件发生并将此事件通知程序后,程序可以不立即处理该事件。这样,当程序下一次调用epoll_wait时,epoll_wait还会再次向程序通知些事件,直到事件被处理。
ET模式:当epoll_wait检测到其上有事件发生并将此事件通知程序后,程序必须立即处理该事件。
因为后续的epoll_wait调用将不再向程序通知这一事件。
可见,ET模式在很大程序上降低了同一个epll事件被重复触发的次数,因此效率要比LT模式高。
注:每个使用ET模式的文件描述符都应该是非阻塞的,如果是阻塞的,那么读或写操作将会因为没有后续事件而一直处于阻塞状态(饥渴状态)。
5. 代码实现
首先,epoll使用一组函数来完成任务,而不是单个函数。
其次,epoll把用户关心的文件描述符上的事件放在内核里的一个事件表中,从而无需像select和poll那样每次调用都要重复传入文件描述符或事件集。但epoll需要使用一个额外的文件描述符,来唯一标识内核中的这个事件表。
1. epoll_create
#include <sys/epoll.h>
int epoll_create(int size);
size参数现在并不起作用,只是给内核一个提示,告诉它事件表需要多大。
函数返回的文件描述将作用于其它所有epoll系统调用的第一参数,以指定要访问的内核事件表。
2. epoll_ctl
#include <sys/epoll.h>
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
fd参数是要操作的文件描述符。
op参数指定操作类型,操作类型有如下3种:
A)EPOLL_CTL_ADD,往事件表中注册fd上的事件。
B)EPOLL_CTL_MOD,修改fd上的注册事件。
C) EPOLL_CTL_DEL,删除fd上的注册事件。
event参数指定事件,这是epoll_event结构指针。
struct epoll_event
{
__uint32_t events; //epoll事件
epoll_data_t data; //用户数据
}
epoll支持的事件类型和poll基本相同,表示epoll事件类型的宏是在poll对应宏的前面加上“E”,比如epoll的可读事件EPOLLIN,但epoll有两个额外的事件类型,EPOLLET和EPOLLONESHOT,它们对于高效运作非常关键,后面我会讨论它们。
data成员有存储用户数据:
typedef union epoll_data
{
void *ptr;
int fd;
uint32_t u32;
uint64_t u64;
} epoll_data_t;
epoll_data_t是一个联合体,其4个成员中使用最多的是fd,它指定事件所从属的目标文件描述符。
ptr成员可用来指定与fd相关的用户数据。但由于它是一个联合体,我们不能同时使用它们两个,因此,如果要将它们关联起来以实现快速数据访问,只能使用其它手段,比如放弃使用fd,而在ptr指向的用户数据里包含fd。
epoll_ctl调用成功时返回0,失败返回-1,并设置errno
3. epoll_wait
#include <sys/epoll.h>
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
epoll_wait如果检测到事件,就将所有就绪的事件从内核事件表中复制到第二个参数events指向的数组中。这个数组只用于输出epoll_wait检测到的就绪事件,而不像select和poll的数组参数那样即用于传入,又用于输出。这就极大提高了应用程序索引就绪文件描述符的效率。
代码差异如下:
//索引poll返回的就绪文件描述符
int ret = poll(fds, MAX_EVENT_NUMBER, -1);
for (int i = 0; i < MAX_EVENT_NUMBER; i++) {
if (fds[i].revents & POLLIN) {
int sockfd = fds[i].fd;
//处理sockfd...
}
}
//索引epoll返回的就绪文件描述符
int ret = epoll_wait(epollfd, events, MAX_EVENT_NUMBER, -1);
for (int i = 0; i < ret; i++) {
int sockfd = events[i].data.fd;
//处理sockfd...
}
4. LT和ET模式
epoll对文件描述符的操作有两种模式:LT(Level Trigger)和ET(Edge Trigger)。
LT模式是默认的工作模式,这种模式下的epoll相当于一个效率较高的poll。
当往epoll内核事件表中注册一个文件描述符上的EPOLLET事件时,epoll将以ET模式来操作该文件描述符。ET模式是epoll的高效工作模式。
LT模式:当epoll_wait检测到其上有事件发生并将此事件通知程序后,程序可以不立即处理该事件。这样,当程序下一次调用epoll_wait时,epoll_wait还会再次向程序通知些事件,直到事件被处理。
ET模式:当epoll_wait检测到其上有事件发生并将此事件通知程序后,程序必须立即处理该事件。
因为后续的epoll_wait调用将不再向程序通知这一事件。
可见,ET模式在很大程序上降低了同一个epll事件被重复触发的次数,因此效率要比LT模式高。
注:每个使用ET模式的文件描述符都应该是非阻塞的,如果是阻塞的,那么读或写操作将会因为没有后续事件而一直处于阻塞状态(饥渴状态)。
5. 代码实现
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <assert.h>
#include <sys/socket.h>
#include <sys/types.h>
#include <sys/epoll.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#define MAX_EVENT_NUMBER 1024
#define BUFFER_SIZE 10
int setnonblocking(int fd);
void addfd(int epollfd, int fd, bool enable_et);
void lt(epoll_event *events, int number, int epollfd, int listenfd);
void et(epoll_event *events, int number, int epollfd, int listenfd);
/*
* 用telnet到这个服务端程序上,并一次传输超过10字节(BUFFER_SIZE的大小)的数据,
* 然后比较LT和ET的异同,会发现ET比LT下事件被触发的次数少很多。
*/
int main(int argc, char **argv)
{
if (argc != 3) {
fprintf(stderr, "Usage: %s ip port\n", basename(argv[0]));
return 1;
}
const char *ip = argv[1];
int port = atoi(argv[2]);
int ret = 0;
struct sockaddr_in address;
bzero(&address, sizeof(address));
address.sin_family = AF_INET;
address.sin_port = htons(port);
inet_pton(AF_INET, ip, &address.sin_addr);
int sockfd = socket(PF_INET, SOCK_STREAM, 0);
assert(sockfd >= 0);
int reuse = 1;
setsockopt(sockfd, SOL_SOCKET, SO_REUSEADDR, &reuse, sizeof(reuse));
ret = bind(sockfd, (struct sockaddr*)&address, sizeof(address));
assert(ret != -1);
ret = listen(sockfd, 5);
assert(ret != -1);
epoll_event events[MAX_EVENT_NUMBER];
int epollfd = epoll_create(5);
assert(epollfd != -1);
addfd(epollfd, sockfd, true);
while (1) {
int ret = epoll_wait(epollfd, events, MAX_EVENT_NUMBER, -1);
if (ret < 0) {
fprintf(stderr, "epoll failed: %s\n", strerror(errno));
break;
}
//lt(events, ret, epollfd, sockfd); //LT模式
et(events, ret, epollfd, sockfd); //ET模式
}
close(sockfd);
return 0;
}
//设置非阻塞文件描述符
int setnonblocking(int fd)
{
int old_option = fcntl(fd, F_GETFL);
int new_option = old_option | O_NONBLOCK;
fcntl(fd, F_SETFL, new_option);
return old_option;
}
//将描述符fd的EPOLLIN注册到epollfd提示的epoll内核事件中,参数enable_et指定是否启用ET模式
void addfd(int epollfd, int fd, bool enable_et)
{
epoll_event event;
event.data.fd = fd;
event.events = EPOLLIN;
if (enable_et) {
event.events |= EPOLLET;
}
epoll_ctl(epollfd, EPOLL_CTL_ADD, fd, &event);
setnonblocking(fd);
}
//LT模式
void lt(epoll_event *events, int number, int epollfd, int listenfd)
{
char buf[BUFFER_SIZE];
for (int i = 0; i < number; i++) {
int sockfd = events[i].data.fd;
if (sockfd == listenfd) {
struct sockaddr_in client_address;
socklen_t client_addrlength = sizeof(client_address);
int connfd = accept(listenfd, (struct sockaddr*)&client_address, &client_addrlength);
addfd(epollfd, connfd, false);
}
else if (events[i].events & EPOLLIN) { //只要socket读缓存中还有未读出的数据,就会被触发
printf("event trigger once\n");
memset(buf, '\0', BUFFER_SIZE);
int ret = recv(sockfd, buf, BUFFER_SIZE-1, 0);
if (ret <= 0) {
close(sockfd);
continue;
}
printf("get %d bytes of content: %s\n", ret, buf);
}
else {
printf("something else happened\n");
}
}
}
//ET模式
void et(epoll_event *events, int number, int epollfd, int listenfd)
{
char buf[BUFFER_SIZE];
for (int i = 0; i < number; i++) {
int sockfd = events[i].data.fd;
if (sockfd == listenfd) {
struct sockaddr_in client_address;
socklen_t client_addrlength = sizeof(client_address);
int connfd = accept(listenfd, (struct sockaddr*)&client_address, &client_addrlength);
addfd(epollfd, connfd, true);
}
else if (events[i].events & EPOLLIN) {
printf("event trigger once\n");
int ret = 0;
//因为ET模式不会重复触发,所以我们要循环读取所有数据
while (1) {
memset(buf, '\0', BUFFER_SIZE);
ret = recv(sockfd, buf, BUFFER_SIZE-1, 0);
if (ret < 0) {
//对于非阻塞I/O,下面的条件成立时表示数据已全部读取完毕
if (errno == EAGAIN || errno == EWOULDBLOCK) {
printf("read later!\n");
break;
}
close(sockfd);
break;
}
else if (ret == 0) {
close(sockfd);
}
else {
printf("get %d bytes of content: %s\n", ret, buf);
}
}
}
else {
printf("something else happened\n");
}
}
}
参考:《linux高性能服务器编程》