数据传输方式（零拷贝）

Chackca

已于 2023-01-16 16:05:20 修改

阅读量7.5k

点赞数 10

分类专栏：操作系统文章标签：零拷贝操作系统数据传输方式

于 2018-09-22 09:06:19 首次发布

原文链接：https://mp.weixin.qq.com/s/ZM_Zxvu7ZdOruIaeXkH0Kw

版权

操作系统专栏收录该内容

17 篇文章 7 订阅

订阅专栏

在介绍零拷贝之前我们先说下在计算机系统中数据传输的方式。

数据传输方式

早期阶段

分散连接，串行工作，程序查询。在这个阶段，CPU就像个保姆一样，需要手把手的把数据从I/O接口从读出然后再送给主存。

这个阶段具体流程是:

CPU主动启动I/O设备
然后CPU一直问I/O设备老铁你准备好了吗，注意这里是一直询问。
如果I/O设备告诉了CPU说:我准备好了。CPU就从I/O接口中读数据。
然后CPU又继续把这个数据传给主存，就像快递员一样。

这种效率很低，数据传输过程一直占据着CPU，CPU不能做其他更有意义的事。

接口模块

在冯诺依曼结构中，每个部件之间均有单独连线，不仅线多，而且导致扩展I/O设备很不容易，我们上面的早期阶段就是这个体系，叫做分散连接。扩展一个I/O设备得连接很多线。所以引入了总线连接方式，将多个设备连接在同一组总线上，构成设备之间的公共传输通道。

在这种模式下数据交换采用程序中断的方式

CPU主动启动I/O设备。
CPU启动之后不需要再问I/O，开始做其他事，类似异步化。
I/O准备好了之后，通过总线中断告诉CPU我已经准备好了。
CPU进行读取数据，传输给主存中。

DMA

虽然上面的方式虽然提高了CPU的利用率，但是在中断的时候CPU一样是被占用的，为了进一步解决CPU占用，又引入了DMA方式，在DMA方式中，主存和I/O设备之间有一条数据通路，这下主存和I/O设备之间交换数据时，就不需要再次中断CPU。

具有通道结构的阶段

在小型计算机中采用DMA方式可以实现高速I/O设备与主机之间组成数据的交换，但在大中型计算机中，I/O配置繁多，数据传送平凡，若采用DMA方式会出现一系列问题。

每台I/O设备都配置专用额DMA接口，不仅增加了硬件成本，而且解决DMA和CPU访问冲突问题，会使控制变得十分复杂。
CPU需要对众多的DMA接口进行管理，同样会影响工作效率。

所以引入了通道，通道用来管理I/O设备以及主存与I/O设备之间交换信息的部件，可以视为一种具有特殊功能的处理器。它是从属于CPU的一个专用处理器，CPU不直接参与管理，故提高了CPU的资源利用率

具有I/O处理机的阶段

输入输出系统发展到第四阶段，出现了I/O处理机。I/O处理机又称为外围处理机，它独立于主机工作，既可以完成I/O通道要完成的I/O控制，又完成格式处理，纠错等操作。具有I/O处理机的输出系统与CPU工作的并行度更高，这说明IO系统对主机来说具有更大的独立性。

我们可以看到数据传输进化的目标是一直在减少CPU占有，提高CPU的资源利用率。

接下来进入拷贝的正题

传统拷贝

传统的拷贝方式具体的数据流转图如下

CPU发指令给I/O设备的DMA，由DMA将我们磁盘中的数据传输到内核空间的内核buffer。
第二阶段触发我们的CPU中断，CPU开始将将数据从kernel buffer拷贝至我们的应用缓存
CPU将数据从应用缓存拷贝到内核中的socket buffer.
DMA将数据从socket buffer中的数据拷贝到网卡缓存。

总共需要经历四个阶段，2次DMA，2次CPU中断，总共四次拷贝，有四次上下文切换，并且会占用两次CPU。

优点:开发成本低，适合一些对性能要求不高的，一些管理系统就足够使用了

缺点:多次上下文切换，占用多次CPU，性能比较低。

零拷贝

什么是零拷贝呢？在wiki中的定位:通常是指计算机在网络上发送文件时，不需要将文件内容拷贝到用户空间（User Space）而直接在内核空间（Kernel Space）中传输到网络的方式。

sendFile实现零拷贝

sendfile 是 Linux 2.1 内核版本后引入的一个系统调用函数，API 如下：

ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
# out_fd:为待写入内容的文件描述符，一个socket描述符。
# in_fd:为待读出内容的文件描述符，必须是真实的文件，不能是 socket 和管道。
# offset:指定从读入文件的哪个位置开始读，如果为 NULL，表示文件的默认起始位置。
# count:指定在 fdout 和 fdin 之间传输的字节数。

在java NIO中FileChannal.transferTo()实现了操作系统的sendFile

调用sendfie()，CPU下发指令叫DMA将磁盘数据拷贝到内核buffer中。
DMA拷贝完成发出中断请求，进行CPU拷贝，拷贝到socket buffer中。sendFile调用完成返回。
DMA将socket buffer拷贝至网卡buffer。

可以看见我们根本没有把数据复制到我们的应用缓存中，所以这种方式就是零拷贝

以上虽然减少到了只有三次数据拷贝[磁盘->内核缓冲区->socket缓冲区->网卡]，但是还是需要CPU中断复制数据。为啥呢？因为DMA需要知道内存地址我才能发送数据啊。所以在Linux2.4内核中做了改进（sendfile+DMA scatter/gather），将Kernel buffer中对应的数据描述信息（内存地址，偏移量）记录到相应的socket缓冲区当中。最终形成了下面的过程：

第一步，通过 DMA 将磁盘上的数据拷贝到内核缓冲区里；
第二步，缓冲区描述符和数据长度传到 socket 缓冲区，这样网卡的 SG-DMA 控制器就可以直接将内核缓存中的数据拷贝到网卡的缓冲区里，此过程不需要将数据从操作系统内核缓冲区拷贝到 socket 缓冲区中，这样就减少了一次数据拷贝；

可以发现，sendfile+DMA scatter/gather 实现的零拷贝，I/O 发生了 2 次用户空间与内核空间的上下文切换，以及 2 次数据拷贝。其中 2 次数据拷贝都是 DMA 拷贝。这就是真正的零拷贝（Zero-copy) 技术，全程都没有通过CPU来搬运数据，所有的数据都是通过 DMA 来进行传输的。

在第三方开源框架中Netty，RocketMQ，kafka、Nginx中都有类似的代码

mmap映射

上面我们提到了零拷贝的实现，但是我们只能将数据原封不动的发给用户，并不能自己使用。于是Linux提供的一种访问磁盘文件的特殊方式，可以将内存中某块地址空间和我们要指定的磁盘文件相关联，从而把我们对这块内存的访问转换为对磁盘文件的访问，这种技术称为内存映射（Memory Mapping）。我们通过这种技术将文件直接映射到用户态的内存地址，这样对文件的操作不再是write/read，而是直接对内存地址的操作。

mmap 使用了虚拟内存，可以把内核空间和用户空间的虚拟地址映射到同一个物理地址，从而减少数据拷贝次数！

用户进程通过 mmap 方法向操作系统内核发起 IO 调用，上下文从用户态切换为内核态。

CPU 利用 DMA 控制器，把数据从硬盘中拷贝到内核缓冲区。

上下文从内核态切换回用户态，mmap 方法返回。

用户进程通过 write 方法向操作系统内核发起 IO 调用，上下文从用户态切换为内核态。

CPU 将内核缓冲区的数据拷贝到的 socket 缓冲区。

CPU 利用 DMA 控制器，把数据从 socket 缓冲区拷贝到网卡，上下文从内核态切换回用户态，write 调用返回。

可以发现，mmap+write 实现的零拷贝，I/O 发生了 4 次用户空间与内核空间的上下文切换，以及 3 次数据拷贝。其中3次数据拷贝中，包括了 2 次 DMA 拷贝和 1 次 CPU 拷贝。

mmap 是将读缓冲区的地址和用户缓冲区的地址进行映射，内核缓冲区和应用缓冲区共享，所以节省了一次 CPU 拷贝‘’并且用户进程内存是虚拟的，只是映射到内核的读缓冲区，可以节省一半的内存空间。

关于PageCache

回顾前面说道文件传输过程，其中第一步都是先需要先把磁盘文件数据拷贝「内核缓冲区」里，这个「内核缓冲区」实际上是磁盘高速缓存（PageCache）。

PageCache 的优点主要是两个：

缓存最近被访问的数据；
预读功能；

这两个做法，将大大提高读写磁盘的性能。

但是，在传输大文件（GB 级别的文件）的时候，PageCache 会不起作用，那就白白浪费 DMA 多做的一次数据拷贝，造成性能的降低，即使使用了 PageCache 的零拷贝也会损失性能

这是因为如果你有很多 GB 级别文件需要传输，每当用户访问这些大文件的时候，内核就会把它们载入 PageCache 中，于是 PageCache 空间很快被这些大文件占满。

另外，由于文件太大，可能某些部分的文件数据被再次访问的概率比较低，这样就会带来 2 个问题：

PageCache 由于长时间被大文件占据，其他「热点」的小文件可能就无法充分使用到 PageCache，于是这样磁盘读写的性能就会下降了；
PageCache 中的大文件数据，由于没有享受到缓存带来的好处，但却耗费 DMA 多拷贝到 PageCache 一次；

所以，针对大文件的传输，不应该使用 PageCache，也就是说不应该使用零拷贝技术，因为可能由于 PageCache 被大文件占据，而导致「热点」小文件无法利用到 PageCache，这样在高并发的环境下，会带来严重的性能问题。

绕开 PageCache 的 I/O 叫直接 I/O，使用 PageCache 的 I/O 则叫缓存 I/O。通常，对于磁盘，异步 I/O 只支持直接 I/O。

传输文件的时候，我们要根据文件的大小来使用不同的方式：

传输大文件的时候，使用「异步 I/O + 直接 I/O」；
传输小文件的时候，则使用「零拷贝技术」；

参考链接：

走进科学之揭开神秘的"零拷贝"！

什么是零拷贝

Chackca

关注

10
点赞
踩
39

收藏

觉得还不错? 一键收藏
1
评论
数据传输方式（零拷贝）

在介绍零拷贝之前我想说下在计算机系统中数据传输的方式。早期阶段:分散连接，串行工作，程序查询。在这个阶段，CPU就像个保姆一样，需要手把手的把数据从I/O接口从读出然后再送给主存。这个阶段具体流程是:CPU主动启动I/O设备然后CPU一直问I/O设备老铁你准备好了吗，注意这里是一直询问。如果I/O设备告诉了CPU说:我准备好了。CPU就从I/O接口中读数...
复制链接

扫一扫

专栏目录