关于IO多路复用

最新推荐文章于 2023-12-14 15:03:57 发布

MaRinli7

最新推荐文章于 2023-12-14 15:03:57 发布

阅读量296

点赞数

分类专栏： IO 文章标签：网络开发语言

原文链接：https://juejin.cn/post/6882984260672847879

版权

IO 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、Linux中基本的概念

用户空间/内核空间

操作系统的核心是内核kernel，可以访问受保护的内存空间，也可以访问硬件设备的所有权限。

为了保证用户进程不能直接操作内核，操作系统将全部的虚拟地址分为两部分，一部分为内核空间，一部分为用户空间。例如32位的操作系统，将最高的1G字节供内核使用，称为内核空间；较低的3G字节供用户进程使用。

进程切换

内核必须有能力挂起正在CPU上运行的进程，并恢复以前挂起的某个进程的执行。称为进程切换，进程切换是非常消耗资源的，包括保存当前进程上下文，更新PCB，把PCB移到相应的队列，选择另一个进程执行，更新内存管理的数据结构，恢复上下文。

进程阻塞

正在执行的进程由于某些事件未发生，如请求资源失败、等待某种操作完成等，由系统自动执行阻塞Block原语，使自己由运行状态变为阻塞状态。可见，线程是在运行态主动转为阻塞态的，并且阻塞态不占用CPU资源。

文件描述符

用于表述指向文件的引用的抽象化概念。在形式上是一个非负整数，实际上它是一个索引值，指向内核为每一个进程所维护的该进程打开文件的记录表。当程序打开一个现有文件或创建一个新文件时，内核向进程返回一个文件描述符。

缓存I/O

又称为标准I/O，大多数文件系统的默认IO操作都是缓存I/O。即数据会被先拷贝到操作系统内核的缓冲区中，然后才会从缓冲区拷贝到应用程序的地址空间。

缺点是需要进行多次数据拷贝操作，带来的开销是非常大的。

2、什么是IO多路复用？

多路指的是网络连接，复用指的是同一个线程

基本的BIO、NIO模型的缺点：

BIO给每一个连接都创建一个线程，accept一个请求后，在recv或send调用阻塞时，无法accept其他请求。

NIO当服务端accept一个请求后，将连接加入到fds集合，while循环轮询集合来recv数据，没有数据就返回错误。一直轮询会很浪费CPU资源

而IO多路复用是采用单线程，通过select/poll/epoll等系统调用获取fd列表，遍历有事件的fd进行accept/recv/send，使其能支持更多的并发连接请求。

3、IO多路复用的三种实现

select

它仅仅知道有I/O事件发生了，但不知道是哪几个流，我们只能无差别的轮询所有流，找出能读的数据，或者写入数据的流对它们进行操作。所以select具有O(n)的无差别轮询复杂度

select本质上是通过设置或者检查存放fd标志位的数据结构来进行下一步处理。这样带来的缺点是：

1）单个进程打开的fd是有限制的，通过FD_SETSIZE设置，默认1024

2）每次调用select，就要把fd集合从用户空间拷贝到内核空间，这个开销在fd很多的时候会很大

3）对socket扫描是线性扫描，采用轮询的方式，效率较低。

如果能给socket注册某个回调函数，当它们活跃时，自动完成相关操作，这就避免了轮询。这就是epoll做的

poll

poll本质上和select没有区别，它将用户传入的数组拷贝到内核空间，然后查询每个fd对应的设备状态，但它没有最大连接数的限制，原因是它是基于链表来存储的。

同样的，每次调用poll也需要将fd集合从用户空间拷贝到内核空间，这个开销很大；其次对socket也是采用线性扫描，轮询的方式，效率较低。

epoll

epoll可以理解为event poll，不同于忙轮询和无差别轮询，epoll会把哪个流发生了怎样的I/O事件通知我们。

所以实际上epoll是事件驱动的。

当某一进程调用epoll_create方法时，Linux内核会创建一个eventpoll结构体：

#include <sys/epoll.h>

// 数据结构
// 每一个epoll对象都有一个独立的eventpoll结构体
// 用于存放通过epoll_ctl方法向epoll对象中添加进来的事件
// epoll_wait检查是否有事件发生时，只需要检查eventpoll对象中的rdlist双链表中是否有epitem元素即可
struct eventpoll {
    /*红黑树的根节点，这颗树中存储着所有添加到epoll中的需要监控的事件*/
    struct rb_root  rbr;
    /*双链表中则存放着将要通过epoll_wait返回给用户的满足条件的事件*/
    struct list_head rdlist;
};

// API
int epoll_create(int size); // 内核中间加一个 ep 对象，把所有需要监听的 socket 都放到 ep 对象中
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event); // epoll_ctl 负责把 socket 增加、删除到内核红黑树
int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);// epoll_wait 负责检测可读队列，没有可读 socket 则阻塞进程

每一个epoll对象都有一个独立的eventpoll结构体，用于存放通过epoll_clt方法向epoll对象中添加进来的事件。这些事件都会挂载到红黑树中，如此，重复添加的事件就可以通过红黑树而高效地标识出来。

所有添加到epoll中的事件都会与设备建立回调关系，当相应的事件发生时会调用这个回调方法，会将发生的事件添加到rdlist双向链表中去

当调用epoll_wait检查是否有事件发生时，只需要检查rdlist双向链表中是否有epitem元素即可。如果rdlist不为空，则把发生的事件复制到用户态，同时将事件数量返回给用户。