epoll详解（使用、原理、实验）

IT枫斗者

于 2024-09-03 05:30:00 发布

阅读量788

点赞数 39

分类专栏： JAVA基础工作中实际总结编程学习文章标签： java python 开发语言数据库服务器

本文链接：https://blog.csdn.net/Andrew_Chenwq/article/details/141788361

版权

编程学习同时被 2 个专栏收录

475 篇文章 10 订阅

订阅专栏

JAVA基础工作中实际总结

394 篇文章 9 订阅

订阅专栏

epoll详解（使用、原理、实验）

epoll函数介绍

同 I/O 多路复用和信号驱动 I/O 一样，Linux 的 epoll（event poll）API 可以检查多个文件描述符上的 I/O 就绪状态。
epoll 是 Linux 下多路复用IO接口 select/poll 的增强版本，它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率

eopll优点

接口使用方便: 虽然拆分成了三个函数, 但是反而使用起来更方便高效. 不需要每次循环都设置关注的文件描述符, 也做到了输入输出参数分离开
数据拷贝轻量: 只在合适的时候调用 EPOLL_CTL_ADD 将文件描述符结构拷贝到内核中, 这个操作并不频繁(而select/poll都是每次循环都要进行拷贝)
事件回调机制: 避免使用遍历, 而是使用回调函数的方式, 将就绪的文件描述符结构加入到就绪队列中,epoll_wait 返回直接访问就绪队列就知道哪些文件描述符就绪. 这个操作时间复杂度O(1). 即使文件描述符数目很多, 效率也不会受到影响.
没有数量限制,文件描述符数目无上限

epoll系统调用

int epoll_create(int size)

当某个进程调用 epoll_create 方法时，内核会创建一个 eventpoll 对象（也就是程序中 epfd 所代表的对象）。eventpoll 对象也是文件系统中的一员，和 socket 一样，它也会有等待队列。
参数没意义

epoll_create生成的文件描述符

struct eventpoll

struct eventpoll {
	// 自旋锁，在kernel内部用自旋锁加锁，就可以同时多线(进)程对此结构体进行操作
	// 主要是保护ready_list
	spinlock_t lock;
	// 这个互斥锁是为了保证在eventloop使用对应的文件描述符的时候，文件描述符不会被移除掉
	struct mutex mtx;
	// epoll_wait使用的等待队列，和进程唤醒有关
	wait_queue_head_t wq;
	// file->poll使用的等待队列，和进程唤醒有关
	wait_queue_head_t poll_wait;
	// 就绪的描述符队列
	struct list_head rdllist;
	// 通过红黑树来组织当前epoll关注的文件描述符
	struct rb_root rbr;
	// 在向用户空间传输就绪事件的时候，将同时发生事件的文件描述符链入到这个链表里面
	struct epitem *ovflist;
	// 对应的user
	struct user_struct *user;
	// 对应的文件描述符
	struct file *file;
	// 下面两个是用于环路检测的优化
	int visited;
	struct list_head visited_list_link;
};

eventpoll对象相当于是socket和进程之间的中介，socket的数据接收并不直接影响进程，而是通过改变eventpoll的就绪列表来改变进程状态。

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)

1.创建epoll对象后，可以用epoll_ctl添加或删除所要监听的socket
2.epoll的事件注册函数，它不同于select()是在监听事件时告诉内核要监听什么类型的事件，而是在这里先注册要监听的事件类型。
- 第一个参数是epoll_create()的返回值。
- 第二个参数表示动作，用三个宏来表示：
- EPOLL_CTL_ADD：注册新的fd到epfd中；
- EPOLL_CTL_MOD：修改已经注册的fd的监听事件；
- EPOLL_CTL_DEL：从epfd中删除一个fd；
- 第三个参数是需要监听的fd。
- 第四个参数是告诉内核需要监听什么事
3.events可以以下几个宏的集合：
- EPOLLIN ：表示对应的文件描述符可以读（包括对端SOCKET正常关闭）；
- EPOLLOUT：表示对应的文件描述符可以写；
- EPOLLPRI：表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）；
- EPOLLERR：表示对应的文件描述符发生错误；
- EPOLLHUP：表示对应的文件描述符被挂断；
- EPOLLET：将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)来说的。
- EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里

int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout)

收集在epoll监控的事件中已经发送的事件
- 参数events是分配好的epoll_event结构体数组，epoll将会把发生的事件赋值到events数组中（events不可以是空指针，内核只负责把数据复制到这个events数组中，不会去帮助我们在用户态中分配内存）
- maxevents告之内核这个events有多大，这个 maxevents的值不能大于创建epoll_create()时的size
- 参数timeout是超时时间（毫秒，0会立即返回，-1将不确定，也有说法说是永久阻塞）
- 如果函数调用成功，返回对应I/O上已准备好的文件描述符数目，如返回0表示已超时
- 假设计算机中正在运行进程A和进程B，在某时刻进程A运行到了epoll_wait语句,内核会将进程A放入eventpoll的等待队列中，阻塞进程
- 当socket接收到数据，中断程序一方面修改rdlist，另一方面唤醒eventpoll等待队列中的进程，进程A再次进入运行状态

epoll原理(重点)

红黑树的根节点，这颗树中存储着所有添加到epoll中的需要监控的事件
调用epoll_create建立一个epoll对象。参数size是内核保证能够正确处理的最大句柄数
epoll_ctl可以操作上面建立的epoll，例如，将刚建立的socket加入到epoll中让其监控，或者把 epoll正在监控的某个socket句柄移出epoll，不再监控它等等。
epoll_wait在调用时，在给定的timeout时间内，当在监控的所有句柄中有事件发生时，就返回用户态的进程,不用传递socket句柄给内核，因为内核已经在epoll_ctl中拿到了要监控的句柄列表
调用epoll_create后，内核就已经在内核态开始准备存储要监控的句柄了，每次调用epoll_ctl只是在往内核的数据结构里塞入新的socket句柄。当一个进程调用epoll_create方法时，Linux内核会创建一个eventpoll结构体
每一个epoll对象都有一个独立的eventpoll结构体，这个结构体会在内核空间中创造独立的内存，用于存储使用epoll_ctl方法向epoll对象中添加进来的事件。这样，重复的事件就可以通过红黑树而高效的识别出来。
在epoll中，对于每一个事件都会建立一个epitem结构体,epoll还维护了一个双链表，用户存储发生的事件。当epoll_wait调用时，仅仅观察这个list链表里有没有数据即eptime项即可。有数据就返回，没有数据就sleep，等到timeout时间到后即使链表没数据也返回。所以epoll_wait非常高效
list链表维护:执行epoll_ctl时，除了把socket放到epoll文件系统里file对象对应的红黑树上之外，还会给内核中断处理程序注册一个回调函数，告诉内核，如果这个句柄的中断到了，就把它放到准备就绪list链表里。所以，当一个socket上有数据到了，内核在把网卡上的数据copy到内核中后就来把socket插入到准备就绪链表里了。
执行epoll_create时，创建了红黑树和就绪链表，执行epoll_ctl时，如果增加socket句柄，则检查在红黑树中是否存在，存在立即返回，不存在则添加到树干上，然后向内核注册回调函数，用于当中断事件来临时向准备就绪链表中插入数据。执行epoll_wait时立刻返回准备就绪链表里的数据即可。

总的来说就是

调用epoll_create创建一个epoll句柄;
调用epoll_ctl, 将要监控的文件描述符进行注册;
调用epoll_wait, 等待文件描述符就绪

epoll工作方式(重点)

水平触发LT

epoll默认情况下就是LT
- 当epoll检测到socket上事件就绪的时候, 可以不立刻进行处理. 或者只处理一部分
- 假设只读了1K数据, 缓冲区中还剩1K数据, 在第二次调epoll_wait 时, epoll_wait仍然会立刻返回并通知socket读事件就绪. 直到缓冲区上所有的数据都被处理完, epoll_wait 不会立刻返回
- 支持阻塞读写和非阻塞读写

边缘触发ET

将socket添加到epoll描述符的时候使用了EPOLLET标志, epoll进入ET工作模式
- 当epoll检测到socket上事件就绪时, 必须立刻处理.如上面的例子, 虽然只读了1K的数据, 缓冲区还剩1K的数据, 在第二次调用 epoll_wait 的时候,epoll_wait 不会再返回了
- ET模式下, 文件描述符上的事件就绪后, 只有一次处理机会
- 只支持非阻塞的读写

ET和LT对比

select和poll其实也是工作在LT模式下. epoll既可以支持LT, 也可以支持ET
LT是 epoll 的默认行为. 使用 ET 能够减少 epoll 触发的次数. 但是代价就是一次响应就绪过程中就把所有的数据都处理完
ET的性能比LT性能更高( epoll_wait 返回的次数少了很多). Nginx默认采用ET模式使用epoll
使用 ET 模式的 epoll, 需要将文件描述设置为非阻塞.

基于epoll的加法器

Reactor

Reactor概念

当服务器在等待连接请求的时候是自由的，不是阻塞的（同步是阻塞等待的），服务器可以干别的事情，当有的连接请求的时候，服务器被通知，执行回调函数来建立起连接。下面是一个反应堆模式实现的web服务器的图例，分别是连接请求和文件传输请求的web服务器

Reactor优点

相应快，不必为单个同步事件所阻塞，虽然Reactor本身也是同步的
避免了多线程/进程的的切换开销
可扩展性，可以方便的通过增加Reactor实例个数来充分利用CPU资源

代码结构

实验结果

阻塞的原理

1.工作队列

阻塞是进程调度的关键一环，指的是进程在等待某事件（如接收到网络数据）发生之前的等待状态，recv、select和 epoll 都是阻塞方法
**例子:*计算机中运行着A、B、C三个进程，其中进程A执行着上述基础网络程序，一开始，这3个进程都被操作系统的*工作队列所引用，处于运行状态，会分时执行

2.等待队列

当进程A执行到创建 socket 的语句时，操作系统会创建一个由文件系统管理的 socket 对象
这个socket对象包含了发送缓冲区、接收缓冲区、等待队列等成员。等待队列指向所有需要等待该socket事件的进程。
当程序执行到recv时，操作系统会将进程A从工作队列移动到该socket的等待队列中由于工作队列只剩下了进程B和C，依据进程调度，cpu会轮流执行这两个进程的程序，不会执行进程A的程序。所以进程A被阻塞，不会往下执行代码，也不会占用cpu资源。
操作系统添加等待队列只是添加了对这个“等待中”进程的引用，以便在接收到数据时获取进程对象、将其唤醒，而非直接将进程管理纳入自己之下

3.唤醒进程

当 socket 接收到数据后，操作系统将该 socket 等待队列上的进程重新放回到工作队列，该进程变成运行状态，继续执行代码。也由于 socket 的接收缓冲区已经有了数据，recv 可以返回接收到的数据。

内核接受网络数据的全过程

进程在recv阻塞期间，计算机收到了对端传送的数据
数据经由网卡传送到内存
网卡通过中断信号通知CPU有数据到达
CPU执行中断程序此处的中断程序主要有两项功能
先将网络数据写入到对应socket的接收缓冲区里面
再唤醒进程A，重新将进程A放入工作队列中。
socket 接收到数据后，操作系统将该 socket 等待队列上的进程重新放回到工作队列，该进程变成运行状态，继续执行代码。也由于 socket 的接收缓冲区已经有了数据，recv 可以返回接收到的数据。

内核接受网络数据的全过程

进程在recv阻塞期间，计算机收到了对端传送的数据
数据经由网卡传送到内存
网卡通过中断信号通知CPU有数据到达
CPU执行中断程序此处的中断程序主要有两项功能
先将网络数据写入到对应socket的接收缓冲区里面
再唤醒进程A，重新将进程A放入工作队列中。

IT枫斗者

关注

39
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
epoll详解（使用、原理、实验）

执行epoll_create时，创建了红黑树和就绪链表，执行epoll_ctl时，如果增加socket句柄，则检查在红黑树中是否存在，存在立即返回，不存在则添加到树干上，然后向内核注册回调函数，用于当中断事件来临时向准备就绪链表中插入数据。所以进程A被阻塞，不会往下执行代码，也不会占用cpu资源。epoll_wait在调用时，在给定的timeout时间内，当在监控的所有句柄中有事件发生时，就返回用户态的进程,不用传递socket句柄给内核，因为内核已经在epoll_ctl中拿到了要监控的句柄列表。
复制链接

扫一扫