linux下的mmap和零拷贝技术

最新推荐文章于 2024-05-01 13:18:51 发布

fdsafwagdagadg6576

最新推荐文章于 2024-05-01 13:18:51 发布

阅读量1.6k

点赞数 6

分类专栏： linux开发

本文链接：https://blog.csdn.net/fdsafwagdagadg6576/article/details/107584821

版权

linux开发专栏收录该内容

16 篇文章 0 订阅

订阅专栏

本文结合下面两个link的博文。
https://blog.csdn.net/z_ryan/article/details/79604192 这个博文没有代码和用户态,内核态切换的比较.
https://www.freesion.com/article/7040248729/ 这个博文结构图没有上一个形象.

一基础知识

文件缓冲区，socket buffer，磁盘缓冲区，网卡缓冲区区别？

文件缓冲区，socket buffer是内核缓冲区，但是两者位置不同，不是同一个缓冲区。磁盘缓冲区，网卡缓冲区在硬件设备上。
读写文件100M文件，不是分配100M内存，而是分配64k内存循环读写，否则直接分配100M，其他应用就容易被挂起。
send是写内存缓冲区成功,不是写到网络成功,网络可能一直发送不完。所以下次send的时候可能失败,因为buffer满,没发送出去.

二传统IO的劣势

初学 Java 时，我们在学习 IO 和网络编程时，会使用以下代码：

File file = new File("index.html");

RandomAccessFile raf = new RandomAccessFile(file, "rw");
byte[] arr = new byte[(int) file.length()];

raf.read(arr);
Socket socket = new ServerSocket(8080).accept();

socket.getOutputStream().write(arr);

我们会调用 read 方法读取 index.html 的内容—— 变成字节数组，然后调用 write 方法，将 index.html 字节流写到 socket 中，那么，我们调用这两个方法，在 OS 底层发生了什么呢？

è¿éåå¾çæè¿°

上图中，上半部分表示用户态和内核态的上下文切换。下半部分表示数据复制操作。下面说说他们的步骤：

read 调用导致用户态到内核态的一次变化，同时，第一次复制开始：DMA（Direct Memory Access，直接内存存取，即不使用 CPU 拷贝数据到内存，而是 DMA 引擎传输数据到内存，用于解放 CPU）引擎从磁盘读取 index.html 文件，并将数据放入到内核缓冲区。
发生第二次数据拷贝，即：将内核缓冲区的数据拷贝到用户缓冲区，同时，发生了一次用内核态到用户态的上下文切换。
发生第三次数据拷贝，我们调用 write 方法，系统将用户缓冲区的数据拷贝到 Socket 缓冲区。此时，又发生了一次用户态到内核态的上下文切换。
第四次拷贝，数据异步的从 Socket 缓冲区，使用 DMA 引擎拷贝到网络协议引擎。这一段，不需要进行上下文切换。
write 方法返回，再次从内核态切换到用户态。

如你所见，复制拷贝操作太多了。如何优化这些流程？

三、MMAP 优化

mmap 通过内存映射，将文件映射到内核缓冲区，同时，用户空间可以共享内核空间的数据。这样，在进行网络传输时，就可以减少内核空间到用户空间的拷贝次数

buf = mmap(file, len);
write(sockfd, buf, len);

notes: mmap file ,write socket 隐含了read file and copy file to socket buffer

è¿éåå¾çæè¿°

如上图，user buffer 和 kernel buffer 共享 index.html。如果你想把硬盘的 index.html 传输到网络中，再也不用拷贝到用户空间，再从用户空间拷贝到 Socket 缓冲区。

现在，你只需要从内核缓冲区拷贝到 Socket 缓冲区即可，这将减少一次内存拷贝（从 4 次变成了 3 次），但不减少上下文切换次数。

四、SENDFILE

那么，我们还能继续优化吗？ Linux 2.1 版本提供了 sendFile 函数，其基本原理如下：数据根本不经过用户态，直接从内核缓冲区进入到 Socket Buffer，同时，由于和用户态完全无关，就减少了一次上下文切换。

è¿éåå¾çæè¿°

如上图，我们进行 sendFile 系统调用时，数据被 DMA 引擎从文件复制到内核缓冲区，然后调用 write 方法时，从内核缓冲区进入到 Socket，这时，是没有上下文切换的，因为都在内核空间。

最后，数据从 Socket 缓冲区进入到协议栈。此时，数据经过了 3 次拷贝，3 次上下文切换。那么，还能不能再继续优化呢？例如直接从内核缓冲区拷贝到网络协议栈？

实际上，Linux 在 2.4 版本中，做了一些修改，避免了从内核缓冲区拷贝到 Socket buffer 的操作，直接拷贝到协议栈，从而再一次减少了数据拷贝。具体如下图：

è¿éåå¾çæè¿°

现在，index.html 要从文件进入到网络协议栈，只需 2 次拷贝：第一次使用 DMA 引擎从文件拷贝到内核缓冲区，第二次从内核缓冲区将数据拷贝到网络协议栈；内核缓存区只会拷贝一些 offset 和 length 信息到 SocketBuffer，基本无消耗。

等一下，不是说零拷贝吗？为什么还是要 2 次拷贝？

首先我们说零拷贝，是从操作系统的角度来说的。因为内核缓冲区之间，没有数据是重复的（只有 kernel buffer 有一份数据，sendFile 2.1 版本实际上有 2 份数据，算不上零拷贝）。例如我们刚开始的例子，内核缓存区和 Socket 缓冲区的数据就是重复的。

而零拷贝不仅仅带来更少的数据复制，还能带来其他的性能优势，例如更少的上下文切换，更少的 CPU 缓存伪共享以及无 CPU 校验和计算。

再稍微讲讲 mmap 和 sendFile 的区别。

mmap 适合小数据量读写，sendFile 适合大文件传输。
mmap 需要 4 次上下文切换，3 次数据拷贝；sendFile 需要 3 次上下文切换，最少 2 次数据拷贝。
sendFile 可以利用 DMA 方式，减少 CPU 拷贝，mmap 则不能（必须从内核拷贝到 Socket 缓冲区）。

在这个选择上：rocketMQ 在消费消息时，使用了 mmap。kafka 使用了 sendFile。

五、JAVA中的例子

kafka 在客户端和 broker 进行数据传输时，会使用 transferTo 和 transferFrom 方法，即对应 Linux 的 sendFile。

tomcat 内部在进行文件拷贝的时候，也会使用 transferto 方法。

tomcat 在处理一下心跳保活时，也会调用该 sendFile 方法。

所以，如果你需要优化网络传输的性能，或者文件读写的速度，请尽量使用零拷贝。它不仅能较少复制拷贝次数，还能较少上下文切换，缓存行污染。

六特性

mmap和sendfile的区别:mmap 用于文件共享，很少用于socket操作.sendfile用于发送文件.
mmap和共享内存的区别:mmap是共享一个文件，共享内存是共享一段内存。mmap还可以写回到file.
mmap缺点:mmap 每次读入都是1页即4k，所以少于4k会造成大量内存碎片. 但是通过read,write也是这样哈，所以没有更优化的情况?

小结

mmap 适用场景,是取代read,write 文件.
mmap的本质,就是进程可以访问内核态的页缓存,减少了一次内核态到用户态的拷贝.
sendfile的本质,是网络DMA直接读取内核页缓存,减少了一次内核页缓存到socket 缓冲区的拷贝

fdsafwagdagadg6576

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
linux下的mmap和零拷贝技术

本文结合下面两个link的博文。https://blog.csdn.net/z_ryan/article/details/79604192这个博文没有代码和用户态，内核态切换的比较.https://www.freesion.com/article/7040248729/这个博文结构图没有上一个形象一、传统IO的劣势初学 Java 时，我们在学习 IO 和网络编程时，会使用以下代码：File file = new File("index.html");RandomAcc...
复制链接

扫一扫