IO模型详解

本文介绍了Linux系统中的用户空间和内核空间的区别,以及PIO和DMA两种数据传输方式。重点讲解了缓存IO和直接IO的优缺点,指出缓存IO虽然能提高性能但涉及多次数据拷贝,而直接IO则减少了内核缓冲区的使用。同时,对比了磁盘IO和网络IO的延时差异。最后,概述了同步IO与异步IO、阻塞IO和非阻塞IO的概念及其应用场景。
摘要由CSDN通过智能技术生成

系列文章目录

1.理解用户空间和内核空间

简单说,Kernel space 是 Linux 内核的运行空间,User space 是用户程序的
运行空间。为了安全,它们是隔离的,即使用户的程序崩溃了,内核也不受影响。

虚拟内存被操作系统划分成两块:内核空间和用户空间,内核空间是内核代码运行的地方,用户空间是用户程序代码运行的地方。当进程运行在内核空间时就处于内核态,当进程运行在用户空间时就处于用户态。

Kernel space 可以执行任意命令,调用系统的一切资源;User space 只能执行简单的运算,不能直接调用系统资源,必须通过系统接口(又称 system call),才能向内核发出指令。

通过系统接口,进程可以从用户空间切换到内核空间。

str = "my string" // 用户空间 
x = x + 2 
file.write(str) // 切换到内核空间 
y = x + 4 // 切换回用户空间

上面代码中,第一行和第二行都是简单的赋值运算,在 User space 执行。第三行需要写入文件,就要切换到 Kernel space,因为用户不能直接写文件,必须通过内核安排。第四行又是赋值运算,就切换回 User space。

2.PIO与DMA

有必要简单地说说慢速I/O设备和内存之间的数据传输方式。

  • PIO 我们拿磁盘来说,很早以前,磁盘和内存之间的数据传输是需要CPU控制的,也就是说如果我们读取磁盘文件到内存中,数据要经过CPU存储转发,这种方式称为PIO。显然这种方式非常不合理,需要占用大量的CPU时间来读取文件,造成文件访问时系统几乎停止响应。
  • DMA 后来,DMA(直接内存访问,Direct Memory Access)取代了PIO,它可以不经过CPU而直接进行磁盘和内存(内核空间)的数据交换。在DMA模式下,CPU只需要向DMA控制器下达指令,让DMA控制器来处理数据的传送即可,DMA控制器通过系统总线来传输数据,传送完毕再通知CPU,这样就在很大程度上降低了CPU占有率,大大节省了系统资源,而它的传输速度与PIO的差异其实并不十分明显,因为这主要取决于慢速设备的速度。

可以肯定的是,PIO模式的计算机我们现在已经很少见到了。

3.缓存IO和直接IO

缓存IO:数据从磁盘先通过DMA copy到内核空间,再从内核空间通过cpu copy到用户空间 
直接IO:数据从磁盘通过DMA copy到用户空间

3.1缓存IO

缓存I/O又被称作标准I/O,大多数文件系统的默认I/O操作都是缓存I/O。
在Linux的缓存I/O机制中,数据先从磁盘复制到内核空间的缓冲区,然后从内核间缓冲区复制到应用程
序的地址空间。
  • 读操作:

    操作系统检查内核的缓冲区有没有需要的数据,如果已经缓存了,那么就直接从缓存中返回;否则从磁盘中读
    取,然后缓存在操作系统的缓存中。

  • 写操作:

    将数据从用户空间复制到内核空间的缓存中。这时对用户程序来说写操作就已经完成,至于什么时候再写到磁盘中由操作系统决定,除非显示地调用了sync同步命令(详情参考《【珍藏】linux 同步IO: sync、fsync与fdatasync》)。

  • 缓存I/O的优点:

    1)在一定程度上分离了内核空间和用户空间,保护系统本身的运行安全;
    2)可以减少读盘的次数,从而提高性能。

  • 缓存I/O的缺点:

    在缓存 I/O 机制中,DMA 方式可以将数据直接从磁盘读到页缓存中,或者将数据从页缓存直接写回到磁盘上,而不能直接在应用程序地址空间和磁盘之间进行数据传输,这样,数据在传输过程中需要在应用程序地址 空间(用户空间)和缓存(内核空间)之间进行多次数据拷贝操作,这些数据拷贝操作所带来的CPU以及内存开销是非常大的。

  • 直接IO
    直接IO就是应用程序直接访问磁盘数据,而不经过内核缓冲区,也就是绕过内核缓冲区,自己管理I/O缓存区,这样做的目的是减少一次从内核缓冲区到用户程序缓存的数据复制。

    引入内核缓冲区的目的在于提高磁盘文件的访问性能,因为当进程需要读取磁盘文件时,如果文件内容已经在内核缓冲区中,那么就不需要再次访问磁盘;而当进程需要向文件中写入数据时,实际上只是写到了内核缓冲区便告诉进程已经写成功,而真正写入磁盘是通过一定的策略进行延迟的。

    然而,对于一些较复杂的应用,比如数据库服务器,它们为了充分提高性能,希望绕过内核缓冲区,由自己在用户 态空间实现并管理I/O缓冲区,包括缓存机制和写延迟机制等,以支持独特的查询机制,比如数据库可以根据更加合理的策略来提高查询缓存命中率。另一方面,绕过内核缓冲区也可以减少系统内存的开销,因为内核缓冲区本身就在使用系统内存。

    应用程序直接访问磁盘数据,不经过操作系统内核数据缓冲区,这样做的目的是减少一次从内核缓冲区到用户程序 缓存的数据复制。这种方式通常是在对数据的缓存管理由应用程序实现的数据库管理系统中。

    直接I/O的缺点就是如果访问的数据不在应用程序缓存中,那么每次数据都会直接从磁盘进行加载,这种直接加载 会非常缓慢。通常直接I/O跟异步I/O结合使用会得到较好的性能。

在这里插入图片描述

Linux提供了对这种需求的支持,即在open()系统调用中增加参数选项O_DIRECT,用它打开的文件便可以绕过内核 缓冲区的直接访问,这样便有效避免了CPU和内存的多余时间开销。

4.磁盘IO和网络IO对比

首先,磁盘IO主要的延时是由(以15000rpm硬盘为例): 机械转动延时(机械磁盘的主要性能瓶颈,平均为2ms) + 寻址延时(2~3ms) + 块传输延时(一般4k每块,40m/s的传输速度,延时一般为0.1ms) 决定。(平均为5ms)

而网络IO主要延是由: 服务器响应延时 + 带宽限制 + 网络延时 + 跳转路由延时 + 本地接收延时 决定。(一般为几十到几千毫秒,受环境干扰极大)

所以两者一般来说网络IO延时要大于磁盘IO的延时。

5.同步IO和异步IO

同步和异步是针对应用程序和内核的交互而言的,同步指的是用户进程触发IO操作并等待或者轮询的去查看IO操作是否就绪,而异步是指用户进程触发IO操作以后便开始做自己的事情,而当IO操作已经完成的时候会得到IO完成的通知。

指的是用户空间和内核空间数据交互的方式 同步:用户空间要的数据,必须等到内核空间给它才做其他
事情 异步:用户空间要的数据,不需要等到内核空间给它,才做其他事情。内核空间会异步通知用户进
程,并把数据 直接给到用户空间。

6.阻塞IO和非阻塞IO

阻塞方式下读取或者写入函数将一直等待,而非阻塞方式下,读取或者写入函数会立即返回一个状态值。

指的是用户就和内核空间IO操作的方式 堵塞:用户空间通过系统调用(systemcall)和内核空间发送
IO操作时,该调用是堵塞的 非堵塞:用户空间通过系统调用(systemcall)和内核空间发送IO操作
时,该调用是不堵塞的,直接返回的, 只是返回时,可能没有数据而已

下一篇:我们聊下【Redis IO多路复用技术以及epoll实现原理】

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值