老狗——文件与磁盘空间管理

最新推荐文章于 2023-10-23 09:12:28 发布

Ethan York

最新推荐文章于 2023-10-23 09:12:28 发布

阅读量1k

点赞数

分类专栏：操作系统文章标签：文件与磁盘空间管理

本文链接：https://blog.csdn.net/weixin_42274953/article/details/84545150

版权

操作系统专栏收录该内容

19 篇文章 0 订阅

订阅专栏

文件与磁盘空间管理

一. 文件和文件系统
二. 文件的逻辑结构
- - 文件逻辑结构的类型
三. 外存分配方式
四. 存储空间的管理

一. 文件和文件系统

文件管理：把所管理的程序和数据组织成一系列的文件，并能进行合理的存储、使用等操作。

1 ）基本概念

数据项：描述对象某种属性的字符集；是数据组织中可以命名的最小逻辑数据单位。

记录：一组相关数据项集合，描述对象某方面的属性；

关键字：一个记录中的一个或几个数据项的集合，用于唯一的标识一个记录。

文件：由创建者定义的、具有文件名的一组相关元素的集合。

有结构：由相关记录组成

无结构：字符流的形式

属性：类型、长度、物理位置、创建时间

2 ）文件类型

不同的系统对文件的管理方式不同

大多用扩展名标志文件类型，按如下几种方式分类文件

按用途：系统、用户、库文件
按数据形式：源文件、目标文件、可执行文件
按存取控制属性：只执行、只读、读写
按组织和处理方式：普通文件、目录文件、特殊（设备）文件

3）文件系统模型

系统管理文件模型

在这里插入图片描述

4）文件操作

操作系统提供哪些文件操作？

最基本的操作

创建/删除文件：分空间，形成FCB及目录（名，地址）
读、写：按名检索目录，找到文件地址，开始读、写
设置文件读写位置，实现随机存取（尤其适用于记录文件）
还需要：“打开”与“关闭”：

文件读/写操作 = 检索 + 读/写

每次读写前都要重复检索增大开销。所以为了方便对同一文件的多次读写，一次检索到文件后就在内存中记录其位置，避免重复检索。被记录下位置的文件就是“打开”文件；

不需要再操作文件时，通过“关闭”这个系统调用关闭文件——即从打开文件表上删除其路径信息即可。
其他操作：改名、改所属用户、改访问权限等属性的操作。

二. 文件的逻辑结构

文件系统设计的关键要素： 如何构成一个文件，以及如何存储在外存。

文件结构：

文件的逻辑结构（file logical structure）：按用户观点如何组织数据；又称文件组织（file organization）

基本要求：检索速度高、方便修改、降低存储空间费用（不连续）

文件的物理结构：根据外存上的物理块的分配机制，记录文件外存的存储结构。用户感知不到的

文件逻辑结构的类型

有结构文件（记录式）
① 定长记录
② 变长记录

如何组织记录：

顺序文件。系统需按该类型记录“长度”，通常定长。

索引文件。系统需为文件建立索引表。

索引顺序文件。建索引表，记录每组记录的第一个记录位置。

无结构文件（字符流式）
字节为单位，利用读写指针依次访问。
系统对该类文件不需格式处理。

① 顺序文件

两种记录排列方式

串结构：按记录形成的时间顺序串行排序。记录顺序与关键字无关；
顺序结构：按关键字排序。

检索方法

从头检索，顺序查找要找的记录，定长的计算相对快。
顺序结构，可用折半查找、插值查找、跳步查找等算法提高效率

具体的寻址过程

第i条记录地址（定长）：
读写指针 + 记录长度： ptr + i*L
第i条记录地址（变长）：
扫描或读取前面0~i-1条记录
第i条记录地址（变长）
变长记录数据前用1字节保存每条记录长度，顺序扫描，但不用把记录全扫描完
j-1
∑(Lj +1)
j=0

顺序结构记录按关键字排序，可按关键字检索

定长：结合折半查找算法等提高检索速度

变长：从第1个记录开始顺序扫描，直到扫描到要检索的关键字标识的记录（例如：数据库、文件系统的基于文件名排序的目录检索）

顺序文件的优缺点：

不方便随机存取某条记录，但适用批量存取的场合。
适合磁带等特殊介质。
单记录的查找、修改等交互性差；增减不方便（改进办法：把增删改的记录登记在一个事务文件中，在某段时间间隔后再与原文件合并更新）

② 索引文件

为了方便单个记录的随机存取，为文件建立一个索引表，记录每项记录在文件的逻辑地址及记录长度；该索引表按关键字排序

索引表内容

索引号、长度、记录地址指针

检索效率

索引表本身即是个按记录键排序的定长顺序文件，所以能利用算法提高索引表检索速度

折半检索过程举例

给出用户关键字
检索索引表(设有n条记录,设一个索引表项占x字节)，则索引表的x*n/2字节处记录着n/2号记录的地址
根据第2步的地址，读一条记录，若记录中关键字不匹配，再判断找第n/4还是第n/2+n/4条记录

一个索引文件可以有多个索引表

为方便用户根据不同记录属性检索记录，为顺序文件建立多个索引表，每种能成为检索条件的域都配备一张索引表。

索引文件的优缺点

适用于变长记录，可提高检索速度，实现直接存取
索引表增加了存储开销

③ 索引顺序文件

既要方便，又要降低开销
本方式是最常见的一种逻辑文件形式。
将顺序文件的所有记录分组
还是建立索引表，但每个表项记录的是每组第1条记录的键值和地址。
组内记录仍按顺序方式检索和使用。
检索一条记录的过程：
先计算记录是在第几组，然后再检索索引确定组在哪里后，在组内顺序查找。
可利用多级索引，进一步提高检索效率

④ 直接文件

给定键值（如学号）不需顺序检索直接得到记录的物理地址
用户对文件的操作由操作系统按文件结构分析执行
而操作归根到底要到外存中进行实质操作

三. 外存分配方式

目标：有效利用外存空间，提高文件访问速度
常用三种方式：
连续分配
链接分配（不连续）
索引分配
通常一个系统中仅采用一种方式
采用的磁盘分配方式决定了文件的“物理结构”
顺序结构；链接式结构；索引式结构。
注意与逻辑结构名类似但不是一回事。

1）连续分配

为每一个文件分配一组相邻的盘块。
逻辑文件中的记录顺序与存储器中文件占用盘块的顺序一致。
优点：顺序访问容易，读写速度快
缺点：
会产生外存碎片。可紧凑法弥补，但需要额外的空间，和内存紧凑相比更花时间。
创建文件时要给出文件大小；存储空间利用率不高，不利于文件的动态增加和修改；
适用于变化不大顺序访问的文件，在流行的UNIX系统中仍保留了连续文件结构。如对换区

2）链接分配

可以为每一个文件分配一组不相邻的盘块。
设置链接指针，将同属于一个文件的多个离散盘块链接成一个链表，这样形成的文件称为链接文件。会有链接成本。
优点：
离散分配，消除外部碎片，提高利用率
同时适用于文件的动态增长；修改容易
链接的两种方式：隐式链接、显式链接

FAT表的相关计算

MS-DOS文件分配结构为例：
		一个1.2M的磁盘，盘块512B大小；若文件系统采用FAT格式，则FAT表大小如何？
		
表项个数   =  盘块个数
          =  容量 / 盘块大小 = 1.2 *220 / 29 = 1.2 *211 个
表项大小，决定于盘块数量编号需要的位数=12 位；
FAT表大小 = 表项个数 * 表项大小 
         = 1.2 *211 * 12 bit
         = 1.2 *211 * 1.5B = 3.6KB
以半字节（0.5B=4b）为基本单位,表项需12位（1.5B）

由上述公式，若容量为200M的磁盘，盘块仍为512B，FAT表大小如何？
FAT表表项有200K≈218 （个）
表项需20位，即2*8+4，2.5字节
FAT表需内存大小为200*2.5=500KB

操作系统允许有逻辑结构的文件，但具体结构一般由软件定义

FAT 与 NTFS 技术

FAT12
表项12位。能支持的硬盘容量仅为8M。
2^{12(个)*512B*4（分区数）=2}23B=8M
磁盘容量不断增大，可将若干盘块组为一簇。以簇为单位分配空间
FAT表记录簇号，表项数量减少，一定程度上提高了检索速度，减少了指针开销，
但该改进有限，且会形成簇内碎片。12位的格式对磁盘容量仍有很大限制
FAT16
增加FAT表的项数，16位可管理的盘容量为
2^1664512B(一簇含64个盘块)=2048M
若磁盘容量为8G，则每簇大小达到128K（8G/2^16）,簇内碎片最大会到128K。浪费严重。
FAT32
簇不能太大，只能继续增加表项位数，以记录更多数量
FAT32规定每簇4KB(即8个512B的盘块），该格式能管理的单个最大磁盘空间为2^32*4KB=2TB。
簇大小合适，空间利用率提高；但分配表的扩大使运行速度相对慢了；可支持长文件名；有最小空间管理限制，卷必须大于512M，单个文件长度不能大于4G，不能向下兼容。
NTFS
New technology file system
采用64位磁盘地址，理论上支持2^64字节的磁盘分区；
支持长文件名；
系统纠容错功能
提供数据一致性、文件加密、压缩等功能
磁盘组织
以簇为单位分配回收、但不规定盘块大小

磁盘格式化时确定卷的簇大小（物理磁盘扇区的整数倍），512M以内的小磁盘默认簇大小为512B，1G的默认大小为1KB。。。大多数情况是4KB

卷上簇编号为LCN，用户用到的簇顺序编成用户虚拟簇号VCN，NTFS可进行VCN到LCN的映射
文件组织
以卷为单位，将卷的所有文件信息、目录信息、可用未分配空间记录在主控文件表MFT中。

每个文件的信息对应一行，固定大小1KB，称为元数据

文件属性信息、文件数据较少时就直接写在MFT中；较多超出1KB时，记录存放这些信息的簇地址指针。

兼容性上也有不足

3）索引分配

链接的不足
顺序检索的时间成本：不能支持高效的盘块直接存取。要对一个文件进行直接存取，仍需在FAT中顺序的查找许多盘块号。
链接信息的空间成本：FAT需占用较大的内存空间。当磁盘容量较大时，FAT可能要占用数MB以上的内存空间。这是令人难以忍受的
改进
系统运行时只涉及部分文件，FAT表无需全部调入内存
每个文件单独建索引表（物理盘块索引），记录所有分配给它的盘块号；
建立文件时，便分配一定的外存空间用于存放文件盘块索引表信息；

① 单级索引分配

索引形式适合大文件
中、小型文件，只需若干链接即可。若用索引分配方式，用一个盘块存放少量索引信息反而不适用。

② 多级索引

若文件较大，存放索引表也需要多个盘块（索引盘块）。
索引盘块亦需要按顺序管理起来
若索引盘块数量较少用指针链接的方式即可；
若索引盘块较多，需对索引盘块也采用索引方式管理，形成多级索引。

多级索引下的文件大小

- 若两级索引，盘块1KB，盘块号占4字节

一个盘块可存放的盘块号数有多少个

1KB/4B = 210/4 = 28 = 256（个）

二级索引下的文件可分配的最大盘块数

256 * 256 =26×210=64 K（个）

文件最大长度为

			64K（个）*1KB=64MB
			
- 若盘块大小为4KB，单级索引允许文件最大长度为4MB（4K/4*4KB），二级索引则文件最大可达4GB（1K*1K*4KB）。

③ 混合组织索引（增量式索引组织方式）

在这里插入图片描述

四. 存储空间的管理

为实现存储空间分配，系统需要：

记住空闲存储空间使用情况；为空间设置相应的数据结构；
提供对存储空间分配、回收的操作手段。

典型的管理方法：

空闲表和空闲链表法
位示图法
成组链接法

1）空闲表法和空闲链表法

空闲表

1. 空闲表法常用于连续分配管理方式

2. 数据结构

系统为外存上的所有空闲区建立一张空闲表
每个空闲区对应一个空闲表项
（表项包括序号、空闲区的第一个盘块号、空闲盘块数等。）
将所有空闲区按其起始盘块号递增的次序排列，如图。
在这里插入图片描述

3. 存储空间的分配与回收操作

与内存的动态分配类似，同样可采用首次适应算法、循环首次适应算法等。
回收主要解决对数据结构的数据修改。
应该说明，虽然很少采用连续分配方式，然而在外存的管理中，由于它具有较高的分配速度，可减少访问磁盘的I/O频率，故它在诸多分配方式中仍占有一席之地。（如实现虚拟用的部分外存就是连续分配方式）

空闲链表

1. 将所有空闲盘区拉成一条空闲链。

2. 数据结构：链

根据构成链所用基本元素的不同，可把链表分成两种形式：

空闲盘块链
将磁盘上的所有空闲空间，以盘块为单位拉成一条链。
因创建文件而请求分配空间时，系统从链首依次摘下适当数目的空闲盘块分配给用户。
因删除文件而释放存储空间时，系统将回收的盘块依次插入空闲盘块链的末尾。
优点：分配和回收一个盘块的过程非常简单，但为一个文件分配盘块时，可能要重复操作多次。
分配回收简单。链表长，大量分配时需要操作的指针多
空闲盘区链
将所有空闲盘区拉成一条链。每个盘区上含有：
指示下一空闲盘区的指针、本盘区大小等信息
分配通常采用首次适应算法。回收盘区时，将回收区与相邻的空闲盘区相合并。
为提高检索速度，可以采用显式方法，为空闲盘区建立一张链表放在内存中。
分配、回收操作涉及的链式数据结构的处理方便
链表长度不定，分配时操作的指针数量相对较少，但分配回收操作相对复杂。

2）位示图法——位示图

利用二进制的一位来表示一个盘块的使用情况。
值为0表示对应的盘块空闲，为1表示已分配。有的系统则相反。
磁盘上的所有盘块都有一个二进制位与之对应，这样由所有盘块所对应的位构成一个集合，称为位示图。
总块数=mn。可用mn个位数来构成位示图，可看成是二维数组（数据结构）。

盘块的分配与回收

根据位示图进行盘块分配：

顺序扫描位示图。找到为0的二进制位。
将所找到的一个或一组二进制位，转换成与之对应的盘块号。进行分配操作。
盘块号计算公式为：盘块号 = 列总数*（i-1）+ j;
（注意下标i，j从1开始）
修改位示图。

根据位示图进行盘块回收：

将回收盘块的盘块号转换成位示图中的行号和列号。转换公式为：i=(盘块号-1)div列数+1；j=(盘块号-1)mod列数+1
Div 求商，mod 取余，公式中的i、j都是从1开始的
（如12号盘块转换后为1，12）
修改位示图。

······································································································································································