浅析io模型

最新推荐文章于 2022-05-02 16:51:39 发布

dreamytian

最新推荐文章于 2022-05-02 16:51:39 发布

阅读量158

点赞数

分类专栏： Java基础

本文链接：https://blog.csdn.net/dreamytian/article/details/79611064

版权

Java基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

两个名词解释:
阻塞和非阻塞。同步和异步

阻塞和非阻塞用来形容调用者线程当前的状态。
同步和异步描述的是消息通信模型。等待返回结果，还是基于事件返回结果。

同步或者阻塞 io 会同步调用会导致请求进程的阻塞。
非阻塞或异步io 不导致请求进程的阻塞。这就是两者的关系。

几种io模型。
阻塞io 和 io多路复用都是阻塞式的io 但后者基于轮询socket。

对于一个套接字上的读操作：
分两个阶段：read阶段网络--内核缓冲区和copy阶段内核缓冲区--应用程序缓冲区。
wait阶段等待数据从网络中到达。当所有等待分组到达时，它被复制到内核中的某个缓冲区。
copy阶段就是把数据从内核缓冲区复制到应用程序缓冲区

阻塞io：
阻塞io的做法read时，实际上是调用recvfrom来读取内核缓冲区的数据。
在等待阶段，如果内核缓冲区没有数据，那么线程或者进程就会被挂起。
直到内核读到了io设备的数据，才会唤醒当前线程，把数据拷贝到应用进程的缓冲区中。
如何唤醒这个问题内核层面的事。

缺点是：在等待阶段，内核线程会处于一直等待状态。浪费线程资源。其实这里并不消耗太多cpu资源因为该线程已经被挂起。

io多路复用：
即用一个线程来检查所有文件描述符的就绪状态。也就是调用select函数，轮询socket。进程在select处阻塞，
等待一个或者多个socket变成可读取状态，其实就是fd的就绪事件，说明内核缓冲区有数据了(也就是是否有数据读了) 。
然后在执行revfrom函数来执行读取操作。

关键：
在等待阶段是使用一个线程来轮询可用的文件描述符。所以不会有太多的阻塞线程同时存在，减少系统资源消耗。
在copy阶段，不可避免是会处于阻塞状态的，因为要拷贝数据到应用的缓冲区。

异步io：
完全基于事件的模型，在read阶段和copy阶段都是在内核中完成的，并在整个操作完成后通知用户。Window下有IOCP，linux下使用epoll模型模拟异步io。

epoll select的区别：

epoll select的学习需要结合c 来学。

epoll中的fd只用拷贝一次到内核空间。并为fd注册回调函数。当读事件就绪时候，会把fd加入到就绪链表。
问题就在于， select是每次都要拷贝到内核空间，不断的遍历整个fd数组。而epoll只用拷贝一次到内核，并遍历就绪链表。

从拷贝来说只有一次。
从遍历的对象来说，范围小了很多。

至于还有一个概念就是current进程也就是调用epoll或者select的进程。。
这是另一个细节的概念，就是fd被拷贝到内核空间以后会把当前进程链接进设备等待队列。这个队列链接的是进程。因为select时候往往就一个进程，所以这个细节就忽略了。

这个细节体现在epoll_wait函数的执行过程：

epoll_wait时，它会判断就绪链表中有没有就绪的fd，如果没有，则把current进程加入一个等待队列中，
并在一个while（1）循环中判断就绪队列是否为空，并结合schedule_timeout实现睡一会，判断一会的效果。
如果current进程在睡眠中，设备就绪了，就会调用回调函数。
在回调函数中，会把就绪的fd放入就绪链表，并唤醒等待队列中的current进程，这样epoll_wait又能继续执行下去了

简单来说就是判断fd 没有就绪就睡眠，如果就绪就回调，并唤醒该进程继续执行. 之后的过程就可以用线程池来处理读写。
把fd交给其他线程处理后。就继续判断就绪链表。