传统IO&page cahe&mmap的原理

两人一城

已于 2022-05-26 12:10:00 修改

阅读量899

点赞数 2

分类专栏：操作系统文章标签： linux

于 2022-05-26 12:07:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42604996/article/details/124981594

版权

操作系统专栏收录该内容

1 篇文章 0 订阅

订阅专栏

mmap就是文件映射内存的系统调用

一、传统IO方式

基于传统的IO方式，底层实际上通过调用read()和write()来实现。

把文件内容读入到内存中。
修改内存中的内容。
把内存的数据写入到文件中。

通过read()把数据从硬盘读取到内核缓冲区，再复制到用户缓冲区；然后再通过write()写入到socket缓冲区，最后写入网卡设备，过程如下图。

图1

从图 1 中可以看出，页缓存(page cache) 是读写文件时的中间层，内核使用 页缓存 与文件的数据块关联起来。所以应用程序读写文件时，实际操作的是 页缓存。

1.那什么是页缓存呢？

文件一般都是存放在硬盘中，CPU并不能直接访问硬盘中的数据，而是需要先将硬盘中的数据读到内存中，然后才能被CPU访问。

由于读写硬盘的速度比读写内存要慢的多（DDR4内存读写速度是机械硬盘的500倍，是固态硬盘的200倍），所以为了避免每次读写文件时，都需要对硬盘进行读写操作，Linux内核使用页缓存（page cache）机制来对文件中的数据进行缓存。

图2

当从文件中读取数据时，如果要读取的数据所在的页缓存已经存在，那么就直接把页缓存的数据拷贝给用户即可。否则，内核首先会申请一个空闲的内存页（页缓存），然后从文件中读取数据到页缓存，并且把页缓存的数据拷贝给用户。

当向文件中写入数据时，如果要写入的数据所在的页缓存已经存在，那么直接把新数据写入到页缓存即可。否则，内核首先会申请一个空闲的内存页（页缓存），然后从文件中读取数据到页缓存，并且把新数据写入到页缓存中。对于被修改的页缓存，内核会定时把这些页缓存刷新到文件中。

2.读写时发生的切换和拷贝

图3

如上图2其整个过程发生了4次用户态和内核态的上下文切换和4次拷贝，具体流程如下：

用户进程通过read()方法向操作系统发起调用，此时上下文从用户态转向内核态
DMA控制器把数据从硬盘中拷贝到读缓冲区
CPU把读缓冲区数据拷贝到应用缓冲区，上下文从内核态转为用户态，read()返回
用户进程通过write()方法发起调用，上下文从用户态转为内核态
CPU将应用缓冲区中数据拷贝到socket缓冲区
DMA控制器把数据从socket缓冲区拷贝到网卡，上下文从内核态切换回用户态，write()返回

二、mmap

1.为什么要使用mmap

从传统读写文件的过程中，我们可以发现有个地方可以优化：如果可以直接在用户空间读写 页缓存，那么就可以免去将 页缓存 的数据复制到用户空间缓冲区的过程。

那么，有没有这样的技术能实现上面所说的方式呢？那么 mmap就出现了。

使用 mmap 系统调用可以将用户空间的虚拟内存地址与文件进行映射（绑定），对映射后的虚拟内存地址进行读写操作就如同对文件进行读写操作一样。原理如图 4所示：

图4

前面我们介绍过，读写文件都需要经过 页缓存，所以 mmap 映射的正是文件的 页缓存，而非磁盘中的文件本身。由于 mmap 映射的是文件的 页缓存，所以就涉及到同步的问题，即 页缓存 会在什么时候把数据同步到磁盘。

Linux 内核并不会主动把 mmap 映射的 页缓存 同步到磁盘，而是需要用户主动触发。同步 mmap 映射的内存到磁盘有 4 个时机：

调用 msync 函数主动进行数据同步（主动）。
调用 munmap 函数对文件进行解除映射关系时（主动）。
进程退出时（被动）。
系统关机时（被动）。

2.mmap+write

mmap+write简单来说就是使用mmap替换了read+write中的read操作，减少了一次CPU的拷贝。

mmap主要实现方式是将读缓冲区的地址和用户缓冲区的地址进行映射，内核缓冲区和应用缓冲区共享，从而减少了从读缓冲区到用户缓冲区的一次CPU拷贝。

图5

如图5整个过程发生了4次用户态和内核态的上下文切换和3次拷贝，具体流程如下：

用户进程通过mmap()方法向操作系统发起调用，上下文从用户态转向内核态
DMA控制器把数据从硬盘中拷贝到读缓冲区
上下文从内核态转为用户态，mmap调用返回
用户进程通过write()方法发起调用，上下文从用户态转为内核态
CPU将读缓冲区中数据拷贝到socket缓冲区
DMA控制器把数据从socket缓冲区拷贝到网卡，上下文从内核态切换回用户态，write()返回

mmap的方式节省了一次CPU拷贝，同时由于用户进程中的内存是虚拟的，只是映射到内核的读缓冲区，所以可以节省一半的内存空间，比较适合大文件的传输。

三、总结

本文主要介绍了传统IO方式和 mmap 的原理和使用方式，在其中也顺带简述了page cache。

通过本文我们可以知道，使用 mmap 对文件进行读写操作时可以减少内存拷贝的次数，并且可以减少系统调用的次数，从而提高对读写文件操作的效率。

由于内核不会主动同步 mmap 所映射的内存区中的数据，所以在某些特殊的场景下可能会出现数据丢失的情况（如断电）。为了避免数据丢失，在使用 mmap 的时候可以在适当时主动调用 msync 函数来同步映射内存区的数据。

如果觉得有收获请点赞加关注，谢谢

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

两人一城 CSDN认证博客专家 CSDN认证企业博客

码龄6年

13: 原创

5万+: 周排名

27万+: 总排名

2万+: 访问

: 等级

202: 积分

3141: 粉丝

50: 获赞

8: 评论

143: 收藏

私信

关注

热门文章

分类专栏

golang 3篇
操作系统 1篇
KubeSphere 1篇
K8S 4篇
存储知识 1篇

最新评论

(史上最完整)k8s和kubesphere搭建图文教程
南方_少年: TASK [common : KubeSphere | Creating manifests] ******************************** ok: [localhost] => (item={'name': 'custom-values-minio', 'file': 'custom-values-minio.yaml'}) TASK [common : KubeSphere | Checking minio] ************************************ changed: [localhost] TASK [common : KubeSphere | Deploying minio] *********************************** changed: [localhost] PLAY RECAP ********************************************************************* localhost : ok=39 changed=27 unreachable=0 failed=1 skipped=82 rescued=0 ignored=0 到这一步报错了，大佬能帮忙看看吗，在网上查了好久都没找到是什么问题，一直卡在这，不知道为啥到这失败
(史上最完整)k8s和kubesphere搭建图文教程
南方_少年: 执行完有一个fail，但不知道具体是哪里报错，不知道怎么解决
golang解析IPv4路由信息，将route print信息结构化输出
CSDN-Ada助手: 不知道 Go 技能树是否可以帮到你：https://edu.csdn.net/skill/go?utm_source=AI_act_go
(史上最完整)k8s和kubesphere搭建图文教程
两人一城: 都是几年前的帖子了,现在早不用这些方法了,现在两条命令就能搞定。
(史上最完整)k8s和kubesphere搭建图文教程
画蛇添足: 讲的很详细，也可以了解一下DHorse(https://github.com/tiandizhiguai/dhorse)，是一个开源的基于k8s的发布平台，安装简单、操作简洁，功能快速。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。