epoll详解(使用、原理、实验)

epoll详解(使用、原理、实验)

epoll函数介绍

  • 同 I/O 多路复用和信号驱动 I/O 一样,Linux 的 epoll(event poll)API 可以检查多个文件描述符上的 I/O 就绪状态。
  • epoll 是 Linux 下多路复用IO接口 select/poll 的增强版本,它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率

eopll优点

  • 接口使用方便: 虽然拆分成了三个函数, 但是反而使用起来更方便高效. 不需要每次循环都设置关注的文件描述符, 也做到了输入输出参数分离开
  • 数据拷贝轻量: 只在合适的时候调用 EPOLL_CTL_ADD 将文件描述符结构拷贝到内核中, 这个操作并不频繁(而select/poll都是每次循环都要进行拷贝)
  • 事件回调机制: 避免使用遍历, 而是使用回调函数的方式, 将就绪的文件描述符结构加入到就绪队列中,epoll_wait 返回直接访问就绪队列就知道哪些文件描述符就绪. 这个操作时间复杂度O(1). 即使文件描述符数目很多, 效率也不会受到影响.
  • 没有数量限制,文件描述符数目无上限

epoll系统调用

int epoll_create(int size)

  • 当某个进程调用 epoll_create 方法时,内核会创建一个 eventpoll 对象(也就是程序中 epfd 所代表的对象)。eventpoll 对象也是文件系统中的一员,和 socket 一样,它也会有等待队列。
  • 参数没意义
epoll_create生成的文件描述符
  • 在这里插入图片描述
struct eventpoll
  • struct eventpoll {
    	// 自旋锁,在kernel内部用自旋锁加锁,就可以同时多线(进)程对此结构体进行操作
    	// 主要是保护ready_list
    	spinlock_t lock;
    	// 这个互斥锁是为了保证在eventloop使用对应的文件描述符的时候,文件描述符不会被移除掉
    	struct mutex mtx;
    	// epoll_wait使用的等待队列,和进程唤醒有关
    	wait_queue_head_t wq;
    	// file->poll使用的等待队列,和进程唤醒有关
    	wait_queue_head_t poll_wait;
    	// 就绪的描述符队列
    	struct list_head rdllist;
    	// 通过红黑树来组织当前epoll关注的文件描述符
    	struct rb_root rbr;
    	// 在向用户空间传输就绪事件的时候,将同时发生事件的文件描述符链入到这个链表里面
    	struct epitem *ovflist;
    	// 对应的user
    	struct user_struct *user;
    	// 对应的文件描述符
    	struct file *file;
    	// 下面两个是用于环路检测的优化
    	int visited;
    	struct list_head visited_list_link;
    };
    
  • eventpoll对象相当于是socket和进程之间的中介,socket的数据接收并不直接影响进程,而是通过改变eventpoll的就绪列表来改变进程状态

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)

  • 1.创建epoll对象后,可以用epoll_ctl添加或删除所要监听的socket
  • 2.epoll的事件注册函数,它不同于select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。
    • 第一个参数是epoll_create()的返回值。
    • 第二个参数表示动作,用三个宏来表示:
    • EPOLL_CTL_ADD:注册新的fd到epfd中;
    • EPOLL_CTL_MOD:修改已经注册的fd的监听事件;
    • EPOLL_CTL_DEL:从epfd中删除一个fd;
    • 第三个参数是需要监听的fd。
    • 第四个参数是告诉内核需要监听什么事
  • 3.events可以以下几个宏的集合:
    • EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);
    • EPOLLOUT:表示对应的文件描述符可以写;
    • EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
    • EPOLLERR:表示对应的文件描述符发生错误;
    • EPOLLHUP:表示对应的文件描述符被挂断;
    • EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来说的。
    • EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里
    • 在这里插入图片描述

int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout)

  • 收集在epoll监控的事件中已经发送的事件

    • 参数events是分配好的epoll_event结构体数组,epoll将会把发生的事件赋值到events数组中(events不可以是空指针,内核只负责把数据复制到这个events数组中,不会去帮助我们在用户态中分配内存)

    • maxevents告之内核这个events有多大,这个 maxevents的值不能大于创建epoll_create()时的size

    • 参数timeout是超时时间(毫秒,0会立即返回,-1将不确定,也有说法说是永久阻塞)

    • 如果函数调用成功,返回对应I/O上已准备好的文件描述符数目,如返回0表示已超时

    • 在这里插入图片描述

    • 假设计算机中正在运行进程A和进程B,在某时刻进程A运行到了epoll_wait语句,内核会将进程A放入eventpoll的等待队列中,阻塞进程

    • 当socket接收到数据,中断程序一方面修改rdlist,另一方面唤醒eventpoll等待队列中的进程,进程A再次进入运行状态

epoll原理(重点)

  • 在这里插入图片描述

  • 红黑树的根节点,这颗树中存储着所有添加到epoll中的需要监控的事件

  • 调用epoll_create建立一个epoll对象。参数size是内核保证能够正确处理的最大句柄数

  • epoll_ctl可以操作上面建立的epoll,例如,将刚建立的socket加入到epoll中让其监控,或者把 epoll正在监控的某个socket句柄移出epoll,不再监控它等等。

  • epoll_wait在调用时,在给定的timeout时间内,当在监控的所有句柄中有事件发生时,就返回用户态的进程,不用传递socket句柄给内核,因为内核已经在epoll_ctl中拿到了要监控的句柄列表

  • 调用epoll_create后,内核就已经在内核态开始准备存储要监控的句柄了,每次调用epoll_ctl只是在往内核的数据结构里塞入新的socket句柄。当一个进程调用epoll_create方法时,Linux内核会创建一个eventpoll结构体

  • 每一个epoll对象都有一个独立的eventpoll结构体,这个结构体会在内核空间中创造独立的内存,用于存储使用epoll_ctl方法向epoll对象中添加进来的事件。这样,重复的事件就可以通过红黑树而高效的识别出来。

  • 在epoll中,对于每一个事件都会建立一个epitem结构体,epoll还维护了一个双链表,用户存储发生的事件。当epoll_wait调用时,仅仅观察这个list链表里有没有数据即eptime项即可。有数据就返回,没有数据就sleep,等到timeout时间到后即使链表没数据也返回。所以epoll_wait非常高效

  • list链表维护:执行epoll_ctl时,除了把socket放到epoll文件系统里file对象对应的红黑树上之外,还会给内核中断处理程序注册一个回调函数,告诉内核,如果这个句柄的中断到了,就把它放到准备就绪list链表里。所以,当一个socket上有数据到了,内核在把网卡上的数据copy到内核中后就来把socket插入到准备就绪链表里了。

  • 执行epoll_create时,创建了红黑树和就绪链表,执行epoll_ctl时,如果增加socket句柄,则检查在红黑树中是否存在,存在立即返回,不存在则添加到树干上,然后向内核注册回调函数,用于当中断事件来临时向准备就绪链表中插入数据。执行epoll_wait时立刻返回准备就绪链表里的数据即可。

总的来说就是

  • 调用epoll_create创建一个epoll句柄;
  • 调用epoll_ctl, 将要监控的文件描述符进行注册;
  • 调用epoll_wait, 等待文件描述符就绪

epoll工作方式(重点)

水平触发LT

  • epoll默认情况下就是LT
    • 当epoll检测到socket上事件就绪的时候, 可以不立刻进行处理. 或者只处理一部分
    • 假设只读了1K数据, 缓冲区中还剩1K数据, 在第二次调epoll_wait 时, epoll_wait仍然会立刻返回并通知socket读事件就绪. 直到缓冲区上所有的数据都被处理完, epoll_wait 不会立刻返回
    • 支持阻塞读写和非阻塞读写

边缘触发ET

  • 将socket添加到epoll描述符的时候使用了EPOLLET标志, epoll进入ET工作模式
    • 当epoll检测到socket上事件就绪时, 必须立刻处理.如上面的例子, 虽然只读了1K的数据, 缓冲区还剩1K的数据, 在第二次调用 epoll_wait 的时候,epoll_wait 不会再返回了
    • ET模式下, 文件描述符上的事件就绪后, 只有一次处理机会
    • 只支持非阻塞的读写

ET和LT对比

  • select和poll其实也是工作在LT模式下. epoll既可以支持LT, 也可以支持ET
  • LT是 epoll 的默认行为. 使用 ET 能够减少 epoll 触发的次数. 但是代价就是一次响应就绪过程中就把所有的数据都处理完
  • ET的性能比LT性能更高( epoll_wait 返回的次数少了很多). Nginx默认采用ET模式使用epoll
  • 使用 ET 模式的 epoll, 需要将文件描述设置为非阻塞.

基于epoll的加法器

Reactor

Reactor概念
  • 当服务器在等待连接请求的时候是自由的,不是阻塞的(同步是阻塞等待的),服务器可以干别的事情,当有的连接请求的时候,服务器被通知,执行回调函数来建立起连接。下面是一个反应堆模式实现的web服务器的图例,分别是连接请求和文件传输请求的web服务器
  • 在这里插入图片描述
Reactor优点
  • 相应快,不必为单个同步事件所阻塞,虽然Reactor本身也是同步的
  • 避免了多线程/进程的的切换开销
  • 可扩展性,可以方便的通过增加Reactor实例个数来充分利用CPU资源

代码结构

  • 在这里插入图片描述

实验结果

  • 在这里插入图片描述

阻塞的原理

1.工作队列

  • 阻塞是进程调度的关键一环,指的是进程在等待某事件(如接收到网络数据)发生之前的等待状态,recv、select和 epoll 都是阻塞方法
  • **例子:*计算机中运行着A、B、C三个进程,其中进程A执行着上述基础网络程序,一开始,这3个进程都被操作系统的*工作队列所引用,处于运行状态,会分时执行
  • 在这里插入图片描述

2.等待队列

  • 当进程A执行到创建 socket 的语句时,操作系统会创建一个由文件系统管理的 socket 对象

  • 这个socket对象包含了发送缓冲区、接收缓冲区、等待队列等成员。等待队列指向所有需要等待该socket事件的进程。

  • 在这里插入图片描述

  • 当程序执行到recv时,操作系统会将进程A从工作队列移动到该socket的等待队列中由于工作队列只剩下了进程B和C,依据进程调度,cpu会轮流执行这两个进程的程序,不会执行进程A的程序。所以进程A被阻塞,不会往下执行代码,也不会占用cpu资源。

  • 操作系统添加等待队列只是添加了对这个“等待中”进程的引用,以便在接收到数据时获取进程对象、将其唤醒,而非直接将进程管理纳入自己之下

  • 在这里插入图片描述

3.唤醒进程

  • 当 socket 接收到数据后,操作系统将该 socket 等待队列上的进程重新放回到工作队列,该进程变成运行状态,继续执行代码。也由于 socket 的接收缓冲区已经有了数据,recv 可以返回接收到的数据。

内核接受网络数据的全过程

  • 进程在recv阻塞期间,计算机收到了对端传送的数据
  • 数据经由网卡传送到内存
  • 网卡通过中断信号通知CPU有数据到达
  • CPU执行中断程序此处的中断程序主要有两项功能
  • 先将网络数据写入到对应socket的接收缓冲区里面
  • 再唤醒进程A,重新将进程A放入工作队列中。
  • socket 接收到数据后,操作系统将该 socket 等待队列上的进程重新放回到工作队列,该进程变成运行状态,继续执行代码。也由于 socket 的接收缓冲区已经有了数据,recv 可以返回接收到的数据。

内核接受网络数据的全过程

  • 进程在recv阻塞期间,计算机收到了对端传送的数据

  • 数据经由网卡传送到内存

  • 网卡通过中断信号通知CPU有数据到达

  • CPU执行中断程序此处的中断程序主要有两项功能

  • 先将网络数据写入到对应socket的接收缓冲区里面

  • 再唤醒进程A,重新将进程A放入工作队列中。

  • 在这里插入图片描述

  • 39
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT枫斗者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值