Linux 网络I/O模型(阻塞,非阻塞,I/O复用,信号驱动,异步)

文章搬运

https://www.toutiao.com/i6708287952520217095/
在这里插入图片描述

用户空间和内核空间

在Linux中不管是内核空间还是用户空间都是使用虚拟地址,在32位平台而言,它的寻址范围是4GB,如下图所示:
在这里插入图片描述
所以从较低3GB(0x00000000到0xBFFFFFFF)称之为用户空间,较高1GB(0xC0000000到0xFFFFFFFF)称之为内核空间。在我的《Linux内存管理》文章有更加详细的说明,可自行前往参考。

进程切换

在Linux中存在多线程的情况下,肯定需要进程的切换,也就是说需要挂起正在运行的进程,然后运行正在就绪状态的进程。这种行为我们称之为进程切换。进程切换有哪些变化呢?

  1. 首先需要保存寄存器现场,保存处理机上下文
  2. 更新PCB信息
  3. 把进程的PCB加入到某些队列中(例如就绪队列)
  4. 选择需要运行的进程,并且执行,然后更新其PCB
  5. 更新内存管理的结构
  6. 恢复处理机上下文
    虽然从这六个步骤中,无法感觉,但是真的挺繁琐的,非常消耗CPU资源。

文件描述符

文件描述符(File descriptor)是计算机科学中的一个术语,是一个用于表述指向文件的引用的抽象化概念。

文件描述符在形式上是一个非负整数。实际上,它是一个索引值,指向内核为每一个进程所维护的该进程打开文件的记录表。

buffer IO

buffer IO也就是标准IO,是默认的IO模式。在用户态write或者read等IO操作时,内核中数据是存储在文件系统的页缓存中。它有个缺点:许多多次拷贝的消耗,带来CPU和内存的消耗。在本人之前的《Linux直接IO原理》中有详细比较两种IO的优缺点。

Linux的5种I/O模型

先直接给出五种网络模型:

  1. 阻塞I/O
  2. 非阻塞I/O
  3. I/O多路复用
  4. 信号驱动I/O
  5. 异步I/O
    上面的5中I/O模型,应该所有的讲述Linux I/O模型的文章都会列举出来。在上述5种I/O模型中,前4种,其实都可以划分为同步I/O方式,只有最有一种异步I/O模型才使用异步I/O方式。
    在Linux中,socket的I/O默认都是阻塞的,流程图,如下:

阻塞I/O 模型

说明阻塞I/O 模型
当应用程序调用recvfrom系统调用,内核进入第一个阶段:等待数据。
所以在用户态这边整个进程都会阻塞。当内核准备数据之后,
还需要将数据拷贝到用户态内存,然后才会return,
之后用户进程才会结束阻塞状态。
在这里插入图片描述
阻塞式I/O的优缺点
  • 优点:
    阻塞式I/O很容易上手,一般程序按照read-process的顺序进行处理就好。通常来说我们编写的第一个TCP的C/S程序就是阻塞式I/O模型的。并且该模型定位错误,在阻塞时整个进程将被挂起,基本不会占用CPU资源。
  • 缺点:
    该模型的缺点也十分明显。作为服务器,需要处理同时多个的套接字,使用该模型对具有多个的客户端并发的场景时就显得力不从心。当然也有补救方法,我们使用多线程技术来弥补这个缺陷。但是多线程在具有大量连接时,多线程技术带来的资源消耗也不容小看。

非阻塞I/O

有阻塞I/O,那么也会有非阻塞I/O,在上文说过默认情况下,所有的套接字都是阻塞的,那么通过设置套接字的NONBLOCK(一般在open(),socket()等调用中设置)标志或者设置recv、send等输入输出函数的MSG_DONTWAIT标志就可以实现非阻塞操作。
那我们来看看非阻塞I/O模型的运行流程:
在这里插入图片描述
可以看到,前三次recvfrom时没有数据可以返回,此时内核不阻塞进程,转而立即返回一个EWOULDBLOCK错误。第四次调用recvfrom时已经有一个数据报准备好了,此时它将被复制到应用进程的缓冲区,于是recvfrom调用成功返回。
当一个应用进程像这样对一个非阻塞描述符循环调用recvfrom时,我们称之为轮询(polling)。

非阻塞式I/O的优缺点
  • 优点:
    这种I/O方式也有明显的优势,即不会阻塞在内核的等待数据过程,每次发起的I/O请求可以立即返回,不用阻塞等待。在数据量收发不均,等待时间随机性极强的情况下比较常用。
  • 缺点:
    轮询这一个特征就已近暴露了这个I/O模型的缺点。轮询将会不断地询问内核,这将占用大量的CPU时间,系统资源利用率较低。同时,该模型也不便于使用,需要编写复杂的代码。

I/O多路复用(I/O multiplexing)

上文中说到,在出现大量的链接时,使用多线程+阻塞I/O的编程模型会占用大量的内存。那么I/O复用技术在内存占用方面,就有着很好的控制。
当前的高性能反向代理服务器Nginx使用的就是I/O复用模型(epoll),它以高性能和低资源消耗著称,在大规模并发上也有着很好的表现。,那么,我们就来看一看I/O复用模型的面目
在这里插入图片描述
从图中我们可以看出,当调用select,整个进程都会阻塞,select可以同时监听多个socket,一旦其中任意一个socket准备就绪状态,select就会立即返回,用户进程就可以read操作了。

上图和阻塞IO的图其实并没有太大的不同,事实上,还更差一些。因为这里需要使用两个系统调用 (select 和 recvfrom),而阻塞 IO只调用了一个系统调用(recvfrom)。但是,select的真正优势在于它可以同时处理多个链接。

所以,如果处理的连接数不是很高的话,使用select/epoll的web服务器不一定比使用多线程 +阻塞IO的web服务器 性能更好,可能延迟还更大。select/epoll的优势并不是对于单个连接能处理得更快,而是在于能处理更多的连接。)

在IO复用 模型中,实际中,对于所有的socket,一般都设置成为非阻塞的。但是,如上图所示,整个用户进程其实是一直被阻塞的。只不过进程是被select这个函数阻塞的,而不是被socket IO给阻塞。

I/O复用模型的优缺点
  • 优点:
    I/O复用技术的优势在于,只需要使用一个线程就可以管理多个socket,系统不需要建立新的进程或者线程,也不必维护这些线程和进程,所以它也是很大程度上减少了资源占用。另外I/O复用技术还可以同时监听不同协议的套接字。
  • 缺点
    在只处理连接数较小的场合,使用select的服务器不一定比多线程+阻塞I/O模型效率高,可能延迟更大,因为单个连接处理需要2次系统调用,占用时间会有增加。

信号驱动式I/O模型

当然你可能会想到使用信号这一机制来避免I/O时线程陷入阻塞状态。那么内核开发者怎么可能会想不到。那么我们来看看信号驱动I/O模型的具体流程:
在这里插入图片描述
从上图可以看到,我们首先开启套接字的信号驱动I/O功能,并通过sigaction系统调用来安装一个信号处理函数,我们进程不会被阻塞。

当数据报准备好读取时,内核就为该进程产生一个SIGIO信号,此时我们可以在信号处理函数中调用recvfrom读取数据报,并通知数据已经准备好,正在等待处理。

信号驱动I/O模型的优缺点
  • 优点:
    很明显,我们的线程并没有在等待数据时被阻塞,可以提高资源的利用率
  • 缺点:
    其实在Unix中,信号是一个被过度设计的机制(这句话来自知乎大神,有待考究)
    信号I/O在大量IO操作时可能会因为信号队列溢出导致没法通知——这个是一个非常严重的问题。

异步I/O

异步I/O,是由POSIX规范定义的。这个规范定义了一些函数,这些函数的工作机制是:告知内核启动某个操作,并让内核在整个操作完成后再通知我们。(包括将数据从内核复制到我们进程的缓冲区),照样,先看模型的流程:
在这里插入图片描述
用户进程发起read操作之后,这个时候就可以去干其他事情了。而从kernel的角度,当它受到一个异步 read之后,首先它会立刻返回,所以不会对用户进程产生任何阻塞。然后,内核会等待数据准备完成,然后将数据拷贝到用户内存,当这一切都完成之后,内核会给用户进程发送一个信号,告诉它read操作完成了。

总结

看下图各I/O模型比较图:
在这里插入图片描述

从图中我们可以发现,非阻塞和异步的区别还是很明显的,在非阻塞中进程大部分不会阻塞的,但是需要主动check I/O。而异步I/O就不需要,内核将数据拷贝完成后,发送信号通知进程就行了。

本文作者:原理君

头条号:底层软件架构

微信公众号:技术原理君

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值