提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
目录
前言
本文主要介绍网络编程中的五种IO模型
本专栏知识点是通过零声教育的线上课学习,进行梳理总结写下文章,对c/c++linux课程感兴趣的读者,可以点击链接 C/C++后台高级服务器课程介绍 详细查看课程的服务。
提示:以下是本篇文章正文内容,下面案例可供参考
一、网络模块要处理哪些事情
在熟悉IO模型前首先需要明确网络模块(IO)的整个流程,也就是在一个完整的网络IO中网络模块要处理哪些事情,其实总的可以概括为五个步骤
建立连接: 创建socket,监听端口(bind&listen)
接收连接: 当连接到达时,调用accept接收客户端的连接请求,生成一个新的socket(后面以clientfd表示), 这里需要注意的是 clientfd 有两个作用,一个是可以用来检测 IO 是否就绪,一个是用来进行IO操作
连接断开: 监听两种断开状态(主动断开: 服务端读端关闭) (被动断开: 服务端读写端都关闭)
消息到达: 监听clientfd的读事件,当有消息时 从 内核空间(read buff) 把数据 拷贝到 用户空间(变量)
消息发送: 监听clientfd的写事件,把 用户空间 数据拷贝到 内核空间(write buff)
网络编程中主要关注 IO读写(内核空间拷贝到用户空间 or 用户空间拷贝到内核空间)的过程, 至于数据什么时候到达对端取决于网络协议栈(传输层, 网络层)
一、阻塞IO(blocking IO)
在linux中, socket默认是阻塞的,一个默认的IO阻塞操作步骤是这样的:
当用户进程调用了read方法, 如果这个时候网络数据还未到达,read buff中的数据还没准备就绪,这个时候用户进程将被阻塞等待,等待数据准备就绪后,用户进程再把数据从read buff 拷贝到 用户变量中返回,返回成功后用户进程才会被从阻塞等待数据的状态中解放出来,这边可以认为 等待数据就绪以及拷贝数据的过程 都是阻塞的
实际上send() recv() 等IO函数接口都是阻塞型的,在等待接口返回的过程中都是阻塞状态的。
这种模式就会导致一个IO阻塞 影响到 后续系统的网络连接请求以及进程IO无法被执行
二、非阻塞IO
linux下可以通过设置 socket 让他成为非阻塞IO 调用read流程如下
图中的流程是 当用户进程调用read 要读取数据时, 如果read buff中没有数据, 程序就直接返回-1,不会阻塞等待, 而用户进程知道此时还没有数据包,可以再次调用read 读取, 直到有数据进行内存拷贝返回给用户进程(注意: 此时read 具备了 IO检测的功能)
使用以下的函数接口可将IO设置成非阻塞状态
fcntl( fd, F_SETFL, O_NONBLOCK );
三、IO多路复用
非阻塞IO 虽然解决了IO阻塞的问题, 但是不断调动 read 轮询内核是否有数据的方式对CPU的消耗比较高,效率比较低, 需要有一个可以同时处理多个 网络连接IO 并且高效的方式,于是就衍生出了select/poll/epoll的方式
1.SELECT
当用户进程调用了select, 进程将会被阻塞,这个时候select 实际上可以看做对一个 fd集合 进行监听当有数据时便拷贝到 用户进程 中。这边搭配 函数 API 可以加深理解
/*
nfds: 最大的文件描述符+1
readfds: 读集合 传入传出参数
writefds: 写文件描述符集合(传入传出参数)
execptfds: 异常文件描述符集合(传入传出参数)
timeout: NULL--永久阻塞
0 --不阻塞 立即返回
>0 --指定事件,事件发生才返回
*/
int select(int nfds, fd_set * readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);
/*
将fd从set集合中清除
*/
void FD_CLR(int fd, fd_set *set);
/*
判断fd是否在集合中
返回值: 如果fd在set集合中, 返回1, 否则返回0
*/
int FD_ISSET(int fd, fd_set *set);
/*
将fd设置到set集合中
*/
void FD_SET(int fd, fd_set *set);
/*
初始化set集合
*/
void FD_ZERO(fd_set *set);
使用 select 可以让用户进程在一个线程中同时处理多个 socket 的 IO 请求。它相对于阻塞 IO 把对于数据的读取(read) 分离成了两个系统调用 select() read(), 这样用户注册 socket 跟 数据的 IO处理 不会相互阻塞 , 达到可以处理多个连接的目的, 并且可以跨平台使用。
缺点:
1, 使用select 需要将 socket 请求 加入 select (读写)集合进行监听,这个步骤需要涉及到用户区到内核区的来回拷贝
2, select 本质是对 集合的轮询操作, 效率较低(假设 1024 个 fd 全部打开, 但是只有一个有数据,对于select来说 还是要轮询 1024 次)
3. 最大支持1024个客户端连接(由FD_SETSIZE=1024限制, 这个值可以修改, 但是需要重新编译内核)
2.POLL
poll与select类似, 区别在于把三个文件描述符的集合(readfds, writefds, exceptfds)变成一个集合 (pollfd )
/*
fds: 传入传出参数, 类型是一个结构体数组
fds.fd: 要监控的文件描述符
fds.events:
POLLIN---->读事件
POLLOUT---->写事件
fds.revents: 返回的事件
*/
/*
nfds: 数组实际有效内容的个数
timeout: 超时时间, 单位是毫秒
*/
int poll(struct pollfd *fds, nfds_t nfds, int timeout);
返回值:
- 成功:返回就绪事件的个数
- 失败: 返回-1。若timeout=0, poll函数不阻塞,且没有事件发生, 此时返回-1, 并且errno=EAGAIN, 这种情况不应视为错误。
1.当 poll 函数返回时, 有没有事件(读事件 or 写事件)发生需要关注 pollfd.revents
2.pollfd.fd设置为 -1 时 poll不会监控
3.poll可以突破1024(select 最大文件描述符)的限制.在/proc/sys/fs/file-max查看一个进程可以打开的socket描述符上限,如果需要可以修改配置文件: /etc/security/limits.conf,加入如下配置信息, 然后重启终端即可生效
soft和hard分别表示ulimit命令可以修改的最小限制和最大限制
* soft nofile 1024
* hard nofile 100000
3.EPOLL
EPOLL 是对 文件描述符 的 I/O事件进行统一管理处理, epoll 把哪个 socket发生怎样的I/O事件通过 epoll_wait通知到用户进程, 用户进程也可以把 I/O事件 通过 epoll_ctl 添加到 eventpoll(管理器) 中进行处理。
eventpoll 内部维护着一个红黑树, 一个双链表, 用户进程调用 epoll_create方法时 ,内核会创建一个eventpoll结构体。用户通过 epoll_ctl 把 socket 添加,删除进内核红黑树中(红黑树的key是fd,val是事件,返回的是事件),当有相应的事件发生时,会把事件添加到双链表中。epoll_wait 会检测双链表中是否有满足条件的事件,有的话就返回。
//创建一个 eventpoll
/*
size: 最大节点数, 此参数在linux 2.6.8已被忽略, 但必须传递一个大于0的数,历史意义,用epoll_create1也行
返回值: 返回一个大于0的文件描述符
*/
int epoll_create(int size);
//将要监听的节点在epoll树上添加, 删除和修改
/*
epfd: eventpoll 文件描述符
op:
EPOLL_CTL_ADD: 添加事件节点到树上
EPOLL_CTL_DEL: 从树上删除事件节点
EPOLL_CTL_MOD: 修改树上对应的事件节点
fd: 事件节点对应的文件描述符
event: 要操作的事件节点, 是一个结构体
event.events常用的有:
EPOLLIN: 读事件
EPOLLOUT: 写事件
EPOLLERR: 错误事件
EPOLLET: 边缘触发模式
*/
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
//检测 eventpoll 的双链表中 有没有满足条件的事件
/*
epfd: epoll树根
events: 传出参数, 其实是一个事件结构体数组
maxevents: 数组大小
timeout: -1: 表示永久阻塞; 0: 立即返回; >0: 表示超时等待事件
*/
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
epoll有两种工作模式,ET和LT模式
水平触发:LT 只要缓冲区中有数据, 就一直通知
边缘触发: ET 只会通知一次,下次有数据流入时才会再通知。在此模式下读的时候要循环读,直到读完
四、异步IO
当用户进程后调用read后,立刻返回, 不阻塞进程,去做其他事情。而 内核 会等数据就绪后从内核空间 拷贝到 用户空间, 等这一系列完成后再以信号的方式通知用户进程,之前的read操作完成了。真正的非阻塞IO
五、信号驱动IO
系统进程会先注册一个 SIGIO 信号,并安装一个信号处理函数(回调函数),当数据准备就绪时,内核会发送一个SIGIO信号给用户进程,用户进程会在回调函数中调用 recvfrom 把数据从 内核空间 复制到用户空间 (这个时候是阻塞的) 进行数据处理
这边从流程看 异步IO 跟 信号驱动IO 流程很像, 区别在于: 异步IO 把 整个 IO 的操作(对IO的检测,IO的操作)交给内核态,最后有数据时返回数据。而信号驱动是把 对IO的就绪检测交给内核态,而对IO的操作时机(从内核复制到用户空间)的时机交给用户进程决定
总结
提示:结合后续的代码示例,可以加深对 网络IO的流程 理解