【Linux IO模型】IO模型 - epoll的原理与应用

最新推荐文章于 2024-07-24 21:34:55 发布

_Emma_

最新推荐文章于 2024-07-24 21:34:55 发布

阅读量310

点赞数 6

分类专栏： Linux 文章标签： linux windows

本文链接：https://blog.csdn.net/qq_38089448/article/details/140522648

版权

Linux 专栏收录该内容

30 篇文章 0 订阅

订阅专栏

epoll原理与应用

介绍

epoll - I/O event notification facility

实现处理tcp请求，为一个连接对应一个线程,在高并发的场景，这种多线程模型于epoll相比就相形见绌了。epoll是linux2.6内核的一个新的系统调用，在设计之初，就是为了替代select,poll线性复杂度的模型，epoll的事件复杂度为O(1),也就是说epoll在高并发场景，随着文件描述符的增长，有良好的可扩展性。

select和poll监听文件描述符list,进行一个线性的查找O(n)
epoll：使用内核文件级别的回调机制O(1)

关键函数

epoll_create1:创建一个epoll实例，文件描述符
epoll_ctl：将江亭的文件描述符添加到epoll实例中，实例代码为将标准输入文件描述符添加到epoll中
epoll_wait：等待epoll事件从epoll实例中发生，并返回事件以及对应文件描述符

epoll关键的核心数据结构：

typedef union epoll_data
{
    void *ptr;
    int fd;
    uint32_t u32;
    uint32_t u64;
}epoll_data_t;

struct epoll_event
{
    uint32_t events;      // epoll events
    epoll_data_t data;    // user data variable
};

边沿触发VS水平触发

epoll事件有两种模型，边沿触发：edge-triggered(ET),水平触发：level-triggered(LT)

水平触发

socket接收缓冲区不为空，有数据可读，读事件一直触发
socket发送缓冲区不满，可以继续写入数据，写事件一直触发

边沿触发

socket接收缓冲区状态变化时触发读事件，即空的接收缓冲区刚接收到数据时触发读事件
socket的发送缓冲区状态变化时触发写事件，即满的缓冲区刚空出空间时，触发读事件

边沿触发仅触发一次，水平触发会一直触发

事件宏

EPOLLIN:表示对应的文件描述符可以读(包括对端SOCKET正常关闭)
EPOLLOUT:表示对应的文件描述符可以写
EPOLLPRI:表示对应的文件描述符有紧急数据可读
EPOLLERR：表示对应的文件描述符发生错误
EPOLLHUP:表示对应的文件描述符被挂断
EPOLLET:将EPOLL设为边沿触发模式
EPOLLONESHOT:只监听一次事件，当监听这次后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里

libevent采用水平触发，nginx采用边沿触发

epoll高效原理

epoll在linux内核中源码位于fs/eventpoll.c和include/linux/eventpoll.h。关键数据结构为epitem红黑树节点和eventpoll关键入口数据结构，维护着链表头节点ready list head和红黑树根节点RB-Tree root。

// 对应于一个加入到epoll的文件 
struct epitem {
	union {
		/* 挂载到eventpoll 的红黑树节点  */
		struct rb_node rbn;
		/* Used to free the struct epitem */
		struct rcu_head rcu;
	};

	/* 挂载到eventpoll.rdllist 的节点   */
	struct list_head rdllink;

	/*
	 * 连接到ovflist 的指针 
	 */
	struct epitem *next;

	/*  文件描述符信息fd + file, 红黑树的key */
	struct epoll_filefd ffd;

	/* Number of active wait queue attached to poll operations */
	int nwait;

	/* 包含轮询等待队列的列表 */
	struct list_head pwqlist;

	/*当前epitem 的所有者 */
	struct eventpoll *ep;

	/* List header used to link this item to the "struct file" items list */
	struct list_head fllink;

	/* 设置EPOLLWAKEUP时使用的wakeup_source*/
	struct wakeup_source __rcu *ws;

	/* epoll_ctl 传入的用户数据  */
	struct epoll_event event;
};

/*
    epoll的核心实现对应于一个epoll描述符
 */
struct eventpoll {
	/*
	 * This mutex is used to ensure that files are not removed
	 * while epoll is using them. This is held during the event
	 * collection loop, the file cleanup path, the epoll file exit
	 * code and the ctl operations.
	 */
	struct mutex mtx;

	/* sys_epoll_wait()等待在这里 */
	wait_queue_head_t wq;

	/* f_op->poll()使用的，被其他事件通知机制利用的wait_address */
	wait_queue_head_t poll_wait;

	/* 已就绪的需要检查的epitem列表*/
	struct list_head rdllist;

	/* 保护rdllist和ovflist的锁 */
	rwlock_t lock;

	/*创建在cache中的红黑树，用于存储以后epoll_ctl传来的socket外 */
	struct rb_root_cached rbr;

	// 当正在向用户空间复制数据时, 产生的可用文件  
	struct epitem *ovflist;

	/* wakeup_source used when ep_scan_ready_list is running */
	struct wakeup_source *ws;

	/* The user that created the eventpoll descriptor */
	struct user_struct *user;

	struct file *file;

	/* used to optimize loop detection check */
	u64 gen;

#ifdef CONFIG_NET_RX_BUSY_POLL
	/* used to track busy poll napi_id */
	unsigned int napi_id;
#endif

#ifdef CONFIG_DEBUG_LOCK_ALLOC
	/* tracks wakeup nests for lockdep validation */
	u8 nests;
#endif
};

epoll使用RB-Tree红黑树去监听并维护所有文件描述符，RB-Tree的根节点

调用epoll_create时，内核除了在epoll文件系统里建了一个file节点，在内核cache里建了一棵红黑树用于存储以后epoll_ctl传来的socket外，还会再建立一个list链表，用于存储准备就绪的事件。

当epoll_wait调用时，仅仅观察这个list链表里有没有数据即可。有数据就返回，没有数据就sleep,等到timeout事件到后及时链表没数据也返回。通常情况下及时需要监控百万计的句柄，大多一次也只返回很少量的准备就绪数据而已，所以epoll_wait仅需要从内核态copy少量数据到用户态即可。

准备就绪链表的维护：

当执行epoll_ctl时，除了把socket放到epoll文件系统里file对象对应的红黑树上，还会给内核中断处理程序注册一个回调函数，告诉内核如果这个句柄的中断到了，就把它放到准备就绪list链表里。所以当socket有数据到了，内核再把网卡的数据copy到内核中后，就来把socket插入到准备就绪的链表里了。

epoll相比于select并不是在所有情况下都要高效，例如在如果少于1024个文件描述符监听，且大多数socket都是处于活跃繁忙的状态，这种情况下，select要比epoll更加高效，因为epoll会有更多次的系统调用，用户态和内核态会有更加频繁的切换。

epoll高效的本质：

减少用户态和内核态的文件句柄拷贝
减少了对可读可写文件句柄的遍历
mmap加速了内核与用户空间的信息传递，epoll是通过内核与用户mmap同一块内存，避免了无谓的内存拷贝
IO性能不会随着监听的文件描述的数量增长而下降
使用红黑树存储fd，以及对应的回调函数，其插入，查找，删除性能都很好，相比于hash，不必预先分配很多空间

参考文章:
https://zhuanlan.zhihu.com/p/93609693

_Emma_

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【Linux IO模型】IO模型 - epoll的原理与应用

实现处理tcp请求，为一个连接对应一个线程,在高并发的场景，这种多线程模型于epoll相比就相形见绌了。epoll是linux2.6内核的一个新的系统调用，在设计之初，就是为了替代select,poll线性复杂度的模型，epoll的事件复杂度为O(1),也就是说epoll在高并发场景，随着文件描述符的增长，有良好的可扩展性。
复制链接

扫一扫

专栏目录