零拷贝
普通传输
File.read();
Socket.send();
这种传输经过了四次数据拷贝
首先是两个概念 用户态和内核态
想要了解用户态和内核态 就需要了解 进程的用户空间和内存空间
这里就是通过操作系统的调用进入内核态
整个数据传输的过程:
1.应用程序在调用read()
方法时,涉及到一次上下文切换(用户态->内核态),通过DMA将磁盘中的文件内容存储到内核地址空间的读取缓存区。
2.read()
之后系统还可以对数据进行操作,需要将内容从内核的读取缓存区,Copy到用户缓存区。所以read()
调用返回时,还会做一次上下文切换(内核态->用户态)。如果有需要,程序可以对数据内容进行修改。
3.接下来调用Socket的send()
方法又涉及一次上下文转换(用户态->内核态),文件内容第三次被Copy,再次拷贝到内核地址空间缓存区。这次不是读取缓存区,这次缓存区与目标套接字相关联。
4.第四次引发上下文切换是send()
调用返回时,通过DMA把数据从套接字相关的缓存区传到协议引擎进行发送。
此处的2、3是在CPU处理的,1、4是DMA负责的。
transferTo()
如果程序不需要对数据进行操作,那么read()
将内容传到用户缓存区就是多余的。如果可以直接从内核态读取缓存区直接把数据拷贝到套接字相关的缓存区,就可以减少拷贝的次数。
如果做到如图所示就可以减少两次上下文切换,一次数据拷贝。
在Java中,FileChannel的transferTo()
方法可以实现这个过程。方法将数据从文件通道传输到给定的可写字节通道, 上面的file.read()
和 socket.send()
调用动作可以替换为 transferTo()
调用。
在 UNIX 和各种 Linux 系统中,此调用被传递到 sendfile()
系统调用中,最终实现将数据从一个文件描述符传输到了另一个文件描述符。
在 Linux 内核 2.4 及后期版本中,针对套接字缓冲区描述符做了相应调整,DMA自带了收集功能,对于用户方面,用法还是一样的,但是内部操作已经发生了改变:
第一步,transferTo() 方法引发 DMA 将文件内容拷贝到内核读取缓冲区。
第二步,把包含数据位置和长度信息的描述符追加到套接字缓冲区,避免了内容整体的拷贝,DMA 引擎直接把数据从内核缓冲区传到协议引擎,从而消除了最后一次 CPU参与的拷贝动作。
这样就实现了零拷贝。