如何理解计算机系统中的I/O

最新推荐文章于 2023-08-15 07:59:29 发布

Mr.deeplan

最新推荐文章于 2023-08-15 07:59:29 发布

阅读量604

点赞数 1

分类专栏： Linux

Linux 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

I/O从直观上来看是输入/输出;

从计算机架构的角度上来说：任何涉及到计算机核心（CPU和内存）与其他设备间的数据迁移的过程就是I/O。本体是计算机核心（CPU和内存）。例如从硬盘上读取数据到内存，是一次输入，将内存中的数据写入到硬盘就产生了输出。在计算机的世界里，这就是IO的本质。

最后，从编程的角度去理解I/O

此事，I/O主体是其应用程序的运行态，即进程，特别强调的是我们的应用程序其实并不存在实质的IO过程，真正的IO过程是操作系统的事情，这里把应用程序的IO操作分为两种动作：IO调用和IO执行。IO调用是由进程发起，IO执行是操作系统的工作。因此，更准确些来说，此时所说的IO是应用程序对操作系统IO功能的一次触发，即IO调用。

IO调用的目的是将进程的内部数据迁移到外部即输出，或将外部数据迁移到进程内部即输入。这里，外部数据指非进程空间数据，在编程时，通常讨论的场景是来自外部存储设备的数据，如硬盘、CD-ROM、以及需要socket通信传输的网络数据。

以一个进程的输入类型的IO调用为例，它将完成或引起如下工作内容：

进程向操作系统请求外部数据
操作系统将外部数据加载到内核缓冲区
操作系统将数据从内核缓冲区拷贝到进程缓冲区
进程读取数据继续后面的工作

从上面的描述来看，我们更容易理解一个IO操作，应用程序和操作系统都干了些什么，也帮助我们更容器理解阻塞和非阻塞，异步和同步的相关IO编程概念。同步（synchronous） IO和异步（asynchronous） IO，阻塞（blocking） IO和非阻塞（non-blocking）IO分别是什么，到底有什么区别？这个问题其实不同的人给出的答案都可能不同，比如wiki，就认为asynchronous IO和non-blocking IO是一个东西。这其实是因为不同的人的知识背景不同，并且在讨论这个问题的时候上下文(context)也不相同。所以，为了更好的回答这个问题，我先限定一下本文的上下文。
本文讨论的背景是Linux环境下的network IO。

阻塞I/O

在Linux中默认情况下所有的socket都是阻塞的，一个典型的读操作流程大概是这样：

当用户进程调用了recvfrom这个系统调用，kernel就开始了IO的第一阶段：准备数据。对于network io来说，很多时候数据在一开始还没有到达（比如，还没收到一个完整的udp包），这个时候内核就要等待足够的数据到来。而在用户进程这边，整个进程会被阻塞。当kernel一直等到数据准备好了，它会将数据从kernel拷贝到进程内存空间，然后kernel返回结果，用户进程才解除block的状态，重新运行起来。

所以，blocking io的特点是在IO执行的两个阶段都被阻塞了。

non-blocking IO

linux下，可以通过设置socket使其变为non-blocking。当对一个non-blocking socket执行读操作时，流程是这个样子：

从图中可以看出，当用户进程发出read操作时，如果kernel中的数据还没有准备好，那么它并不会block用户进程，而是立刻返回一个error。从用户进程角度讲，它发起一个read操作后，并不需要等待，而是马上就得到了一个结果。用户进程判断结果是一个error时，它就知道数据还没有准备好，于是它可以再次发送read操作。一旦kernel中的数据准备好了，并且又再次收到了用户进程的system call，那么它马上就将数据拷贝到了用户内存，然后返回。
所以，用户进程其实是需要不断的主动询问kernel数据好了没有。

IO multiplexing

IO multiplexing这个词可能有点陌生，但是如果我说select，epoll，大概就都能明白了。有些地方也称这种IO方式为event driven IO。我们都知道，select/epoll的好处就在于单个process就可以同时处理多个网络连接的IO。它的基本原理就是select/epoll这个function会不断的轮询所负责的所有socket，当某个socket有数据到达了，就通知用户进程。它的流程如图：

当用户进程调用了select，那么整个进程会被block，而同时，kernel会“监视”所有select负责的socket，当任何一个socket中的数据准备好了，select就会返回。这个时候用户进程再调用read操作，将数据从kernel拷贝到用户进程。
这个图和blocking IO的图其实并没有太大的不同，事实上，还更差一些。因为这里需要使用两个system call (select 和 recvfrom)，而blocking IO只调用了一个system call (recvfrom)。但是，用select的优势在于它可以同时处理多个connection。（多说一句。所以，如果处理的连接数不是很高的话，使用select/epoll的web server不一定比使用multi-threading + blocking IO的web server性能更好，可能延迟还更大。select/epoll的优势并不是对于单个连接能处理得更快，而是在于能处理更多的连接。）
在IO multiplexing Model中，实际中，对于每一个socket，一般都设置成为non-blocking，但是，如上图所示，整个用户的process其实是一直被block的。只不过process是被select这个函数block，而不是被socket IO给block。

Asynchronous I/O

linux下的asynchronous IO其实用得很少。先看一下它的流程：

用户进程发起read操作之后，立刻就可以开始去做其它的事。而另一方面，从kernel的角度，当它受到一个asynchronous read之后，首先它会立刻返回，所以不会对用户进程产生任何block。然后，kernel会等待数据准备完成，然后将数据拷贝到用户内存，当这一切都完成之后，kernel会给用户进程发送一个signal，告诉它read操作完成了。

本文来源于：https://blog.csdn.net/historyasamirror/article/details/5778378