其实在Linux下设计并发网络程序,向来不缺少方法,比如典型的Apache模型(Process Per Connection,简称PPC),TPC(Thread PerConnection)模型,以及select模型和poll模型,那为何还要再引入Epoll这个东东呢?
select,poll,Epoll的比较
select模型
1. 最大并发数限制,因为一个进程所打开的FD(文件描述符)是有限制的,由FD_SETSIZE设置,默认值是1024/2048,因此Select模型的最大并发数就被相应限制了。自己改改这个FD_SETSIZE?想法虽好,可是先看看下面吧…
2. 效率问题,select每次调用都会线性扫描全部的FD集合,这样效率就会呈现线性下降,把FD_SETSIZE改大的后果就是,大家都慢慢来,什么?都超时了??!!
3. 内核/用户空间 内存拷贝问题,如何让内核把FD消息通知给用户空间呢?在这个问题上select采取了内存拷贝方法。
poll模型
基本上效率和select是相同的,select缺点的2和3它都没有改掉。
Epoll模型
把其他模型逐个批判了一下,再来看看Epoll的改进之处吧,其实把select的缺点反过来那就是Epoll的优点了。
1. Epoll没有最大并发连接的限制,上限是最大可以打开文件的数目,这个数字一般远大于2048,一般来说这个数目和系统内存关系很大,具体数目可以cat /proc/sys/fs/file-max察看。
2. 效率提升,Epoll最大的优点就在于它只管你“活跃”的连接,而跟连接总数无关,因此在实际的网络环境中,Epoll的效率就会远远高于select和poll。
3. 内存拷贝,Epoll在这点上使用了“共享内存”,这个内存拷贝也省略了。
Epoll为什么高效
Epoll的高效和其数据结构的设计是密不可分的,这个下面就会提到。
首先回忆一下select模型,当有I/O事件到来时,select通知应用程序有事件到了快去处理,而应用程序必须轮询所有的FD集合,测试每个FD是否有事件发生,并处理事件;代码像下面这样:
int res = select(maxfd+1, &readfds, NULL, NULL,120);
if(res > 0)
{
for(int i = 0; i < MAX_CONNECTION; i++)
{
if(FD_ISSET(allConnection[i],&readfds))
{
handleEvent(allConnection[i]);
}
}
}
// if(res == 0) handle timeout, res< 0 handle error
Epoll不仅会告诉应用程序有I/0事件到来,还会告诉应用程序相关的信息,这些信息是应用程序填充的,因此根据这些信息应用程序就能直接定位到事件,而不必遍历整个FD集合。
intres = epoll_wait(epfd, events, 20, 120);
for(int i = 0; i <res;i++)
{
handleEvent(events[n]);
}
Epoll关键数据结构
前面提到Epoll速度快和其数据结构密不可分,其关键数据结构就是:
structepoll_event {
__uint32_tevents; // Epoll events
epoll_data_tdata; // User datavariable
};
typedef union epoll_data{
void*ptr;
intfd;
__uint32_t u32;
__uint64_t u64;
} epoll_data_t;
可见epoll_data是一个union结构体,借助于它应用程序可以保存很多类型的信息:fd、指针等等。有了它,应用程序就可以直接定位目标了。
epoll的使用
1函数简介
相比于select,epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中,它是采用轮询来处理的,轮询的fd数目越多,自然耗时越多。并且,在linux/posix_types.h头文件有这样的声明:
#define __FD_SETSIZE 1024
表示select最多同时监听1024个fd,当然,可以通过修改头文件再重编译内核来扩大这个数目,但这似乎并不治本。
2接口函数
epoll的接口非常简单,一共就三个函数:
int epoll_create
int epoll_create(int size)
创建一个epoll的句柄,size用来告诉内核这个监听的数目一共有多大。这个参数不同于select()中的第一个参数,给出最大监听的fd+1的值。需要注意的是,当创建好epoll句柄后,它就是会占用一个fd值,在linux下如果查看/proc/进程id/fd/,是能够看到这个fd的,所以在使用完epoll后,必须调用close()关闭,否则可能导致fd被耗尽。
自从Linux 2.6.8开始,size参数被忽略,但是依然要大于0。
int epoll_ctl
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)
epoll的事件注册函数,它不同与select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。第一个参数是epoll_create()的返回值,第二个参数表示动作,用三个宏来表示:
EPOLL_CTL_ADD:注册新的fd到epfd中;
EPOLL_CTL_MOD:修改已经注册的fd的监听事件;
EPOLL_CTL_DEL:从epfd中删除一个fd;
第三个参数是需要监听的fd,第四个参数是告诉内核需要监听什么事,struct epoll_event结构如下:
struct epoll_event {
__uint32_t events; /* Epoll events */
epoll_data_t data; /* User data variable */
};
events可以是以下几个宏的集合:
EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);
EPOLLOUT:表示对应的文件描述符可以写;
EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
EPOLLERR:表示对应的文件描述符发生错误;
EPOLLHUP:表示对应的文件描述符被挂断;
EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来说的。
EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里。
int epoll_wait
int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout)
等待事件的产生,类似于select()调用。参数events用来从内核得到事件的集合,maxevents表示每次能处理的最大事件数,告之内核这个events有多大,这个maxevents的值不能大于创建epoll_create()时的size,参数timeout是超时时间(毫秒,0会立即返回,-1将不确定,也有说法说是永久阻塞)。该函数返回需要处理的事件数目,如返回0表示已超时。
下面是我在redhat9上用epoll实现的简单的C/S通信。
server.c
#include <stdio.h>
#include <sys/types.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <stdlib.h>
#include <string.h>
#include <sys/epoll.h>
#define BUFFER_SIZE 40
#define MAX_EVENTS 10
int main(int argc, char * argv[])
{
int server_sockfd;// 服务器端套接字
int client_sockfd;// 客户端套接字
int len;
struct sockaddr_in my_addr; // 服务器网络地址结构体
struct sockaddr_in remote_addr; // 客户端网络地址结构体
int sin_size;
char buf[BUFFER_SIZE]; // 数据传送的缓冲区
memset(&my_addr,0,sizeof(my_addr)); // 数据初始化--清零
my_addr.sin_family=AF_INET; // 设置为IP通信
my_addr.sin_addr.s_addr=INADDR_ANY;// 服务器IP地址--允许连接到所有本地地址上
my_addr.sin_port=htons(8000); // 服务器端口号
// 创建服务器端套接字--IPv4协议,面向连接通信,TCP协议
if((server_sockfd=socket(PF_INET,SOCK_STREAM,0))<0)
{
perror("socket");
return 1;
}
// 将套接字绑定到服务器的网络地址上
if (bind(server_sockfd,(struct sockaddr *)&my_addr,sizeof(struct sockaddr))<0)
{
perror("bind");
return 1;
}
// 监听连接请求--监听队列长度为5
listen(server_sockfd,5);
sin_size=sizeof(struct sockaddr_in);
// 创建一个epoll句柄
int epoll_fd;
epoll_fd=epoll_create(MAX_EVENTS);
if(epoll_fd==-1)
{
perror("epoll_create failed");
exit(EXIT_FAILURE);
}
struct epoll_event ev;// epoll事件结构体
struct epoll_event events[MAX_EVENTS];// 事件监听队列
ev.events=EPOLLIN;
ev.data.fd=server_sockfd;
// 向epoll注册server_sockfd监听事件
if(epoll_ctl(epoll_fd,EPOLL_CTL_ADD,server_sockfd,&ev)==-1)
{
perror("epll_ctl:server_sockfd register failed");
exit(EXIT_FAILURE);
}
int nfds;// epoll监听事件发生的个数
// 循环接受客户端请求
while(1)
{
// 等待事件发生
nfds=epoll_wait(epoll_fd,events,MAX_EVENTS,-1);
if(nfds==-1)
{
perror("start epoll_wait failed");
exit(EXIT_FAILURE);
}
int i;
for(i=0;i<nfds;i++)
{
// 客户端有新的连接请求
if(events[i].data.fd==server_sockfd)
{
// 等待客户端连接请求到达
if((client_sockfd=accept(server_sockfd,(struct sockaddr *)&remote_addr,&sin_size))<0)
{
perror("accept client_sockfd failed");
exit(EXIT_FAILURE);
}
// 向epoll注册client_sockfd监听事件
ev.events=EPOLLIN;
ev.data.fd=client_sockfd;
if(epoll_ctl(epoll_fd,EPOLL_CTL_ADD,client_sockfd,&ev)==-1)
{
perror("epoll_ctl:client_sockfd register failed");
exit(EXIT_FAILURE);
}
printf("accept client %s/n",inet_ntoa(remote_addr.sin_addr));
}
// 客户端有数据发送过来
else
{
len=recv(client_sockfd,buf,BUFFER_SIZE,0);
if(len<0)
{
perror("receive from client failed");
exit(EXIT_FAILURE);
}
printf("receive from client:%s",buf);
send(client_sockfd,"I have received your message.",30,0);
}
}
}
return 0;
}
client.c
#include <stdio.h>#include <sys/types.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <string.h>
#include <stdlib.h>
#define BUFFER_SIZE 40
int main(int argc, char *argv[])
{
int client_sockfd;
int len;
struct sockaddr_in remote_addr; // 服务器端网络地址结构体
char buf[BUFFER_SIZE]; // 数据传送的缓冲区
memset(&remote_addr,0,sizeof(remote_addr)); // 数据初始化--清零
remote_addr.sin_family=AF_INET; // 设置为IP通信
remote_addr.sin_addr.s_addr=inet_addr("127.0.0.1");// 服务器IP地址
remote_addr.sin_port=htons(8000); // 服务器端口号
// 创建客户端套接字--IPv4协议,面向连接通信,TCP协议
if((client_sockfd=socket(PF_INET,SOCK_STREAM,0))<0)
{
perror("client socket creation failed");
exit(EXIT_FAILURE);
}
// 将套接字绑定到服务器的网络地址上
if(connect(client_sockfd,(struct sockaddr *)&remote_addr,sizeof(struct sockaddr))<0)
{
perror("connect to server failed");
exit(EXIT_FAILURE);
}
// 循环监听服务器请求
while(1)
{
printf("Please input the message:");
scanf("%s",buf);
// exit
if(strcmp(buf,"exit")==0)
{
break;
}
send(client_sockfd,buf,BUFFER_SIZE,0);
// 接收服务器端信息
len=recv(client_sockfd,buf,BUFFER_SIZE,0);
printf("receive from server:%s/n",buf);
if(len<0)
{
perror("receive from server failed");
exit(EXIT_FAILURE);
}
}
close(client_sockfd);// 关闭套接字
return 0;
}
makefile
#This is the makefile of EpollTest
.PHONY:all
all:server client
server:
gcc server.c -o server
client:
gcc client.c -o client
clean:
rm -f server client