存储层次
高速缓存
寄存器读取内存中数据的过程,如下图所示
先从内存地址提取到高速缓存内,寄存器(CPU)再从高速缓存拿取指定地址
当寄存器需要再次获取相同值时,可以直接从高速缓存拿取对应值(如果该值存在的话),而无需再次请求内存
当寄存器需要修改值时,经历如下过程
- 将修改后的值存到高速缓存,并为其赋予一个脏标记
- 被赋予脏标记的高速缓存数据项在某个时间点于后台修改内存数据,修改完毕后删去脏标记
- 以此类推
当高速缓存空间被占满后,如果需要发起新请求,一般会删除高速缓存中的一个项目,然后复制新项目到高速缓存内;
如果所有高速缓存项都是脏的,还执意要访问内存,那么会导致系统抖动,降低运行效率
缓冲与缓存区
CPU 上存在一个具有与高速缓存同样的访问速度的区域,名为转译后备缓冲区(Translation Lookaside Buffer,TLB)
,又称为快表或页表缓冲,该区域用于保存虚拟地址与物理地址的转换表
页面缓存:当进程读取文件的数据时,内核并不会直接把文件数据复制到进程的内存中,而是先把数据复制到位于内核的内存上的页面缓存区域,然后再把这些数据复制到进程的内存中
文件修改时,页面缓存区执行的动作和高速缓存一致;
页面缓存区也有“脏”与“不脏”
强制断电将导致页面缓存中的脏页丢失
文件系统
数据与容量
下图展示了文件操作的底层步骤(适用于任何操作系统)
数据:用户创建的文档、图片、视频和程序等数据内容
元数据:文件的名称、文件在外部存储器中的位置和文件大小等辅助信息
为避免单文件不合理的内存使用(比如一个文件直接占满所有内容),此时就会有“磁盘配额”功能执行管理
磁盘配额有以下三种:用户配额、目录配额、子卷配额
日志与写时复制
日志功能在文件系统中提供了一个名为日志区域的特殊区域,他用来存储文件系统的操作
文件系统的更新步骤
- 把更新所需的原子操作的概要暂时写入日志区域,这里的“概要”就称为日志。
- 基于日志区域中的内容,进行文件系统的更新。
写时复制:即每次修改文件都是将修改后的文件保存到一个新的位置,再把指向就文件的链接改为指向新文件,此时即完成写时复制
当被强制断电后,只需删去新创建的文件,就可以恢复到原先状态
字符设备
字符设备虽然能执行读写操作,但是无法自行确定读取数据的位置
很少有应用程序会直接操作终端的设备文件,取而代之的是操作 Linux 提供的 shell 程序或者库
块设备
块设备除了能执行普通的读写操作以外,还能进行随机访问
比如 HDD 与 SSD 等外部存储器
其他文件系统
tmpfs
是一种创建于内存(而非外部存储器)上的文件系统
常用于 /tmp
与 /var/run
这种“文件内容无须保存到下一次启动时”的文件上
虚拟文件系统 procfs
用于获取系统上所有进程的信息
外部存储
HDD
HDD 数据传输的流程
- 设备驱动程序将读写数据所需的信息传递给 HDD,其中包含扇区序列号、扇区数量以及访问类型(读取或写入)等信息。
- 通过摆动磁头摆臂并转动盘片,将磁头对准需要访问的扇区。
- 执行数据读写操作。
- 在执行读取的情况下,执行完 HDD 的读取处理就能结束数据传输。
HDD 上数据存储一般都是连续的,因为访问不连续的扇区会导致轨迹变长;
把针对连续区域的访问请求汇集到一次访问请求中
这就是不连续扇区访问的路径
访问顺序
对于顺序读写
- 不管是读取还是写入,随着单次 I/O 请求量增大,吞吐量都有所提升
- 单次 I/O 请求量达到 1MB 后,性能就已经到达峰值了,这个值就是该 HDD 单次访问允许的数据量上限,同时也是该 HDD 设备的性能上限
对于随机访问
不管是读取还是写入,随机访问的性能都比顺序访问差。特别是在 I/O 请求量较小时,差距更加明显
调度器
linux 将 HDD 或者 SSD 均称作块设备
不同块设备都有着自己独特的文件系统,故统一使用通用块层处理这些请求
通用块层中的 I/O 调度器会将访问块设备的请求积攒一定时间,并在向设备驱动程序发出 I/O 请求前对这些请求进行加工(如下所示)
- 合并:将访问连续扇区的多个 I/O 请求合并为一个请求
- 排序:按照扇区的序列号对访问不连续的扇区的多个 I/O 请求进行排序
预读功能:顾名思义,磁头正在读取一个扇区时,会预先读取下一扇区内容,这样可以提高顺序访问的性能
SSD
SSD 和 HDD 不一致的方式是他直接使用电子信息交互,极大的减少了磁头读取所需的时间
但这也带来了一个问题,即 SSD 坏掉并无明确千兆,且因闪存颗粒特性,使得数据恢复极为困难;
而 HDD 在这两方卖则和 SSD 相反