第四章:文件

四、文件

1、初识文件管理

image-20230613221656937

文件的属性

文件名: 由创建文件的用户决定文件名,主要是为了方便用户找到文件,同一目录下不允许有重名文件

标识符: 一个系统内的各文件标识符唯一,对用户来说毫无可读性因此标识符只是操作系统用于区分各个文件的一种内部名称。

类型:指明义件的类型

位置:文件存放的路径(让用户使用)、在外存中的地址(操作系统使用,对用户不可见)

大小:指明文件大小

创建时间、上次修改时间、文件所有者信息
保护信息: 对文件进行保护的访问控制信息

image-20230613222744740

文件的内部数据应该怎样组织起来

image-20230613222933619

对于有结构文件中的每一条数据称为一条记录,记录有多个数据项组成

image-20230613223028516

文件之间应该怎样组织起来

image-20230613223258444

操作系统应该向上(用户)提供哪些功能

image-20230613223528770

image-20230613223641989

文件应该如何放在外存中

image-20230613223941869

image-20230613224105844

总结

image-20230613224250818

2、文件的逻辑结构

逻辑结构 —— 描述文件内部数据如何组织起来的

物理结构 —— 描述数据是如何存放在外存的

image-20230613224905670

类似于数据结构的“逻辑结构”和“物理结构”如“线性表”就是一种逻辑结构,在用户角度看来,线性表就是一组有先后关系的元素序列,如:a.b, c, d, e …

“线性表”这种逻辑结构可以用不同的物理结构实现,如: 顺序表/链表。顺序表的各个元素在逻辑上相邻,在物理上也相邻:而链表的各个元素在物理上可以是不相邻的。因此,顺序表可以实现“随机访问”,而“链表”无法实现随机访问。

可见,算法的具体实现与逻辑结构、物理结构都有关(文件也一样,文件操作的具体实现与文件的逻辑结构、物理结构都有关)

有结构文件

按文件是否有结构分类,可以分为无结构文件、有结构文件两种

无结构文件: 文件内部的数据就是一系列二进制流或字符流组成。又称“流式文件”。如:Windows 操作系统中的.txt 文件。

有结构文件: 由一组相似的记录组成,又称“记录式文件”。每条记录又若千个数据项组成。如:数据库表文件。一般来说,每条记录有一个数据项可作为关键字(作为识别不同记录的ID)

image-20230613225427501

根据各条记录的长度(占用的存储空间)是否相等,又可分为定长记录可变长记录

image-20230613225558295

image-20230613225644779

有结构文件内部数据的组织形式有三种:

image-20230613225842330

顺序文件

文件中的记录一个接一个地顺序排列(逻辑上),记录可以是定长的或可变长的。各个记录在物理上可以顺序存储链式存储

image-20230613230036491

image-20230613230358537

链式存储无法随机存取,定长顺序存储可实现随机存取,若采用顺序结构,则可以通过关键字查找。

image-20230613231351778

索引文件

image-20230613231754157

索引顺序文件

思考索引文件的缺点:

每个记录对应一个索引表项,因此索引表可能会很大。比如:文件的每个记录平均只占 8B,而每个索引表项占32个字节,那么索引表都要比文件内容本身大4倍,这样对存储空间的利用率就太低了

image-20230613232309438

多级索引顺序文件

为了进一步提高检索效率,可以为顺序文件建立多级索引表。例如,对于一个含 10^6个记录的文件,可先为该文件建立一张低级索引表,每 100 个记录为一组,故低级索引表中共有 10000 个表项(即10000个定长记录),再把这 10000 个定长记录分组,每组100个,为其建立顶级索引表,故顶级索引表中共有 100 个表项:

image-20230613232403928

总结

image-20230613232559602

3、文件目录

image-20230625214132288

本小节知识总览

image-20230625214210498

3.1 文件控制块

image-20230625214404497

image-20230625214606872

对目录进行的操作?

搜索:当用户要使用一个文件时,系统要根据文件名搜索目录,找到该文件对应的目录项

创建文件:创建一个新文件时,需要在其所属的目录中增加一个目录项

删除文件:当删除一个文件时,需要在目录中删除相应的目录项

显示目录:用户可以请求显示目录的内容,如显示该目录中的所有文件及相应属性

修改目录:某些文件属性保存在目录中,因此这些属性变化时需要修改相应的目录项(如文件重命名)

3.2 单级目录结构

在早期的操作系统中并不支持多级目录,整个系统中只建立一张目录表,每个文件占一个目录项。

image-20230625214902244

3.3 俩级目录结构

早期的多用户操作系统,采用两级目录结构。分为主文件目录(MFD,Master File Directory) 用户文件目录 (UFD,User Flie Directory)

image-20230625215045668

3.4 树形目录结构

image-20230625215239398

用户(或用户进程)要访问某个文件时要用文件路径名标识文件,文件路径名是个字符串。各级目录之间用“/”隔开。从根目录出发的路径称为绝对路径

例如: 自拍.jpg 的绝对路径是“/照片/2015-08/自拍.jpg”

系统根据绝对路径一层一层地找到下一级目录。刚开始从外存读入根目录的目录表: 找到“照片”目录的存放位置后,从外存读入对应的目录表: 再找到“2015-08”目录的存放位置,再从外存读入对应目录表最后才找到文件“自拍.jpg”的存放位置。整个过程需要3次读磁盘I/O操作。

很多时候,用户会连续访问同一目录内的多个文件(比如:接连查看“2015-08”目录内的多个照片文件)显然,每次都从根目录开始查找,是很低效的。因此可以设置一个“当前目录”

例如,此时已经打开了“照片”的目录文件,也就是说,这张目录表已调入内存,那么可以把它设置为“当前目录”。当用户想要访问某个文件时,可以使用从当前目录出发的 “相对路径”

表示当前目录,因此如果“照片”是当前目录,则”自拍.jpg”的相对路径为:在 Linux 中,“./2015-08/自拍.jpg”。从当前路径出发,只需要查询内存中的“照片”目录表,即可知道”2015-08”目录表的存放位置,从外存调入该目录,即可知道“自拍.jpg”存放的位置了。

树形目录结构可以很方便地对文件进行分类,层次结构清晰,也能够更有效地进行文件的管理和保护。但是,树形结构不便于实现文件的共享。为此,提出了“无环图目录结构”

3.5 无环图目录结构

image-20230625215917406

可以用不同的文件名指向同一个文件,甚至可以指向同一个目录(共享同一目录下的所有内容)

需要为每个共享结点设置一个共享计数器,用于记录此时有多少个地方在共享该结点。用户提出删除结点的请求时,只是删除该用户的 FCB、并使共享计数器减1,并不会直接删除共享结点。只有共享计数器减为0时,才删除结点

注意: 共享文件不同于复制文件。在共享文件中,由于各用户指向的是同一个文件,因此只要其中一个用户修改了文件数据,那么所有用户都可以看到文件数据的变化。

3.6 索引结点(FCB的改进)

image-20230625220331667

索引结点有什么好处?

假设一个FCB是64B,磁盘块的大小为1KB,则每个盘块中只能存放16个FCB。若一个文件目录中共有640个目录项,则共需要占用640/16 =40 个盘块。因此按照某文件名检索该目录,平均需要查询320 个目录项,平均需要启动磁盘20次(每次磁盘I/o读入一块)

若使用索引结点机制,文件名占14B,索引结点指针站2B,则每个盘块可存放64个目录项,那么按文件名检索目录平均只需要读入 320/64 = 5个磁盘块。显然,这将大大提升文件检索速度

当找到文件名对应的目录项时,才需要将索引结点调入内存,索引结点中记录了文件的各种信息,包括文件在外存中的存放位置,根据“存放位置”即可找到文件。

存放在外存中的索引结点称为“磁盘索引结点”,当索引结点放入内存后称为“内存索引结点”,相比之下内存索引结点中需要增加一些信息,比如:文件是否被修改、此时有几个进程正在访问该文件

3.7 总结

image-20230625220941567

4、文件的物理结构

image-20230625221100991

文件的物理结构: 文件的数据应该怎样存放在外存中。

image-20230625221140462

补充知识: 文件块、磁盘块

类似于内存分页,磁盘中的存储单元也会被分为一个个 “块、磁盘块、物理块”、在很多操作系统中,磁盘块的大小与内存块、页面的大小相同

原因很简单,内存、外存每次操作的单位一致的话,操作就会很方便。

image-20230625221748423

在内存管理中,进程的逻辑地址空间被分为一个一个页面同样的,在外存管理中,为了方便对文件数据的管理,文件的逻辑地址空间也被分为了一个一个的文件“块”

于是文件的逻辑地址也可以表示为 (逻辑块号,块内地址)的形式

image-20230625222003276

用户通过逻辑地址来操作自己的文件,操作系统要负责实现从逻辑地址到物理地址映射

4.1 连续分配

连续分配方式要求每个文件在磁盘上占有一组连续的块。

image-20230625222243828

那么操作系统如何实现从逻辑地址到物理地址的映射?

(逻辑块号,块内地址)——》(物理块号,块内地址)

只需要转换号即可,地址保持不变

要完成地址的转换,文件目录中需要记录 起始块号、长度

image-20230625222416022

用户给出要访问的逻辑块号,操作系统找到该文件对应的目录项 (FCB)

物理块号 = 起始块号 + 逻辑块号

当然,还需要检查用户提供的逻辑块号是否合法 (逻辑块号2 长度 就不合法)

优点一:因此连续分配支持顺序访问和直接访问(随机访问)

image-20230625222805430

读取某个磁盘块时,需要移动磁头。访问的两个磁盘块相隔越远,移动磁头所需时间就越长。

优点二: 连续分配的文件在顺序读/写时速度最快

image-20230625223049792

假设此时文件A需要扩展,需要四个文件块,那么就需要从黄色部分迁移到绿色部分,这个操作的时间是非常耗时的。’

缺点一: 连续分配的文件不方便扩展

image-20230625223257369

缺点二: 物理上采用连续分配,存储空间利用率低,会产生难以利用的磁盘碎片。

可以用紧凑来处理碎片,但是需要消耗很大的时间代价

总结

优点: 支持顺序访问和直接访问(即随机访问); 连续分配的文件在顺序访问时速度最快

缺点: 不方便文件拓展;存储空间利用率低,会产生磁盘碎片

4.2 链接分配

4.2.1 显示分配

链接分配采取离散分配的方式,可以为文件分配离散的磁盘块。分为隐式链接和显式链接两种。

image-20230625223803352

用户给出要访问的逻辑块号i,操作系统找到该文件对应的目录项 (FCB)
从目录项中找到起始块号(即0号块),将0号逻辑块读入内存,由此知道1号逻辑块存放的物理块号,于是读入1号逻辑块,再找到2号逻辑块的存放位置…以此类推。

结论: 采用链式分配(隐式链接)方式的文件,只支持顺序访问,不支持随机访问(只能从起始块号开始),查找效率低。另外,指向下一个盘块的指针也需要耗费少量的存储空间.

是否方便扩展文件?

image-20230625224109984

假设对 aaa 文件进行扩展,只需要将空闲的块号挂在链尾,并更新FCB

image-20230625224204358

结论: 采用隐式链接的链接分配方式,很方便文件拓展另外,所有的空闲磁盘块都可以被利用,不会有碎片问题外存利用率高

总结

隐式链接: 除文件的最后一个盘块之外,每个盘块中都存有指向下一个盘块的指针。文件目录包括文件第一块的指针和最后一块的指针

优点: 很方便文件拓展,不会有碎片问题,外存利用率高。

缺点: 只支持顺序访问,不支持随机访问,查找效率低,指向下一个盘块的指针也需要耗费少量的存储空间。

4.2.2 隐式分配

把用于链接文件各物理块的指针显式地存放在一张表中。即 文件分配表 (FAT,File Allocation Table )

image-20230625224618395

在文件分配表中,记录块号的下一块的块号

image-20230625224733106

注意: 一个磁盘仅设置一张FAT ,开机时,将FAT读入内存,并常驻内存。 FAT的各个表项在物理上连续存储,且每一个表项长度相同,因此“物理块号”字段可以是隐含的。

如何实现文件的逻辑块号到物理块号的转变?

用户给出要访问的逻辑块号 i,操作系统找到该文件对应的目录项(FCB)

从目录项中找到起始块号,若i>0,则查询内存中的文件分配表FAT,往后找到i 号逻辑块对应的物理块号。逻辑块号转换成物理块号的过程不需要读磁盘操作

image-20230625225227311

结论: 采用链式分配(显式链接) 方式的文件,支持顺序访问,也支持随机访问 (想访问i 号逻辑块时,并不需要依次访问之前的 0~ i-1号逻辑块) 由于块号转换的过程不需要访问磁盘,因此相比于隐式链接来说,访问速度快很多。

总结

显式链接: 把用于链接文件各物理块的指针显式地存放在一张表中,即 文件分配表 (FAT,FileAlocation Table)。一个磁盘只会建立一张文件分配表。开机时文件分配表放入内存,并常驻内存

优点: 很方便文件拓展,不会有碎片问题,外存利用率高,并且支持随机访问。相比于隐式链接来说,地址转换时不需要访问磁盘,因此文件的访问效率更高。

缺点: 文件分配表的需要占用一定的存储空间。

4.3 索引分配

索引分配允许文件离散地分配在各个磁盘块中,系统会为每个文件建立一张索引表,索引表中记录了文件的各个逻辑块对应的物理块(索引表的功能类似于内存管理中的页表–建立逻辑页面到物理页之间的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块

image-20230625225931743

在 FCB 中记录文件对应的索引块:

image-20230625225948009

image-20230625230049436

7号磁盘块保存 ‘aaa’ 的索引表,2、5、13、9 则是 aaa 的 数据块

注: 在显式链接的链式分配方式中,文件分配表FAT 是一个磁盘对应一张。而索引分配方式中,索引表是一个文件对应一张。

可以用固定的长度表示物理块号 (如:假设磁盘总容量为1TB=240B,磁盘块大小为1KB,则共有 230个磁盘块,则可用4B 表示磁盘块号),因此,索引表中的“逻辑块号”可以是隐含的

如何实现逻辑块号到物理块号的转换?

用户给出要访问的逻辑块号i,操作系统找到该文件对应的目录项 (FCB)

从目录项中可知索引表存放位置,将索引表从外存读入内存,并查找索引表即可只i号逻辑块在外存中的存放位置。

因此,索引分配方式可以支持随机访问,文件扩展也很容易实现(只需要给文件分配一个空闲块,并增加一个索引表项即可)。

思考?

若每个磁盘块1KB,一个索引表项4B(以下计算都是以此为为基准),则一个磁盘块只能存放 256 个索引项
如果一个文件的大小超过了256块,那么一个磁盘块是装不下文件的整张索引表的,如何解决这个问题?

  • 链接方案
  • 多层索引
  • 混合索引
4.3.1 链接方案

如果索引表太大,一个索引块装不下,那么可以将多个索引块链接起来存放。

image-20230625230929767

FCB 中只需要记录第一个索引块,在一个索引块中的索引表中会记录指向下一个索引块的指针。

如果想要访问第二个索引块中的内容,则需要先将第一个索引块读入内存,找到第二个索引块进行读取。

那么问题就来了? 假设文件太大,需要用256 个索引块存储,想要访问 第 256 个索引块,还必须先访问前面 255 个索引块,显然这时很低效的。

4.3.2 多层索引

建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引快。还可根据文件大小的要求再建立第三层、第四层索引块。

image-20230625231841485

每一个索引项又是一个索引表。

注意: 每一个索引表的大小都不能超过一个磁盘块大小。

因此,若采用俩层索引,则该文件最大长度可以到:

256 * 256 * 1kb = 65536 kb = 64MB

逻辑块号到物理块号的转变

可以根据逻辑块号算出应该查找索引表中的哪个表项, 如果想要访问 1026 号逻辑块:

1026/256 = 4,// 查询第四个索引表

1026%256=2 // 第二个表项

因此可以先将一级索引表调入内存,查询 4 号表项,将其对应的二级索引表调入内存,再查询二级索引表的2号表项即可知道 1026 号逻辑块存放的磁盘块号了访问目标数据块,需要3次磁盘I/0.

多层索引的分配方式还有一个问题,就是如果文件太小,假设只有 1KB,使用多级索引就有点浪费了,因此有了混合索引

4.3.3 混合索引

多种索引分配方式的结合。例如,一个文件的顶级索引表中,既包含直接地址索引(直按指向数据块),又包含一级间接索引(指向单层索引表)、还包含两级间接索引(指向两层索引表)

image-20230625232613540

总结

image-20230625232855031

4.4 总结

image-20230625233130206

5、文件逻辑结构与物理结构的区别

image-20230627212919634

1、C语言创建无结构文件

FILE *fp = fopen("test.txt”,"w"); //打开文件
if( fp == NULL ){
	printf("打开文件失败!");
    exit(0);
}
//写入1w个Hello world
for (int i=0; i<10000; i++)
fputs("Hello world!", fp);
fclose(fp);

以上代码会生成一个 test.txt 文件,并写入1w hello world

逻辑结构(从用户视角看)

image-20230627213959206

在用户看来,整个文件占用一片连续的逻辑地址空间。

物理结构(从操作系统视角来看)

在操作系统看来,这些内容都是一堆二进制数据,将这些数据保存到对应的磁盘块中。

image-20230627214330920

只要我们访问文件时,指明了逻辑地址,操作系统就会帮我们将逻辑块号转换为物理块号。

image-20230627215411987

6、文件存储空间管理

image-20230627215520531

6.1 存储空间的划分与初始化

安装 Windows 操作系统的时候,一个必经步骤是–为磁盘分区 (C: 盘、D:盘、E: 等) ,这些 C盘、D盘 称为文件卷(逻辑卷、逻辑盘)

image-20230627215905606

image-20230627220006598

6.1 空闲表法

记录第一个空闲的磁盘块号和它连续的长度,适用于 “连续分配方式”

image-20230627220111554

如何分配磁盘块: 与内存管理中的动态分区分配很类似,为一个文件分配连续的存储空间。同样可采用首次适应、最佳适应、最坏适应等算法来决定要为文件分配哪个区间。

如果需要3个连续磁盘块,按照首次适用算法来说,将 10,11,12 分配给新文件,并修改空闲磁盘块表。

image-20230627220402516

image-20230627220413853

如何回收磁盘块:与内存管理中的动态分区分配很类似,当回收某个存储区时需要有四种情况–

1、回收区的前后都没有相邻空闲区;

2、回收区的前后都是空闲区;

3、回收区前面是空闲区;

4、回收区后面是空闲区。

总之,回收时需要注意表项的合并问题

假设回收 15、16、17 三块磁盘块,需要和 13、14、15 磁盘块进行合并

image-20230627220724847

image-20230627220806240

6.2 空闲链表法

image-20230627220935513

空闲盘区: 连续的空闲盘块组成一个空闲盘区

image-20230627221046255

空闲盘块链

适用于离散分配的物理结构

image-20230627221153466

空闲盘区链

适用于离散分配、连续分分配

image-20230627221349014

6.3 位示图法

可以理解为二维数组

image-20230627221625067

image-20230627221840273

6.4 成组链接法

空闲表法、空闲链表法不适用于大型文件系统,因为空闲表或空闲链表可能过大。UNIX系统中采用了成组链接法对磁盘空闲块进行管理。

文件卷的目录区中专门用一个磁盘块作为**“超级块”,当系统启动时需要将超级块读入内存**。并且要保证内存与外存中的“超级块”数据一致。

image-20230627222453441

如果分配?

image-20230627222637663

如何回收?

image-20230627222947360

假设第一个分组已经满了

image-20230627223027238

6.5 总结

image-20230627223206064

7、文件的基本操作

image-20230627223235414

创建文件

image-20230627223445005

删除文件

image-20230627223539475

打开文件

image-20230627223733617

关闭文件

image-20230627224137923

读文件

image-20230627224424148

写文件

image-20230627224411549

总结

image-20230627224835541

8、文件共享

image-20230627224924850

8.1 基于索引结点的共享方式

image-20230627225748754

若某个用户决定“删除”该文件,则只是要把用户目录中与该文件对应的目录项删除,且索引结点的 count值减1。

image-20230627225845063

若 count > 0,说明还有别的用户要使用该文件,暂时不能把文件数据删除,否则会导致指针悬空。当count =0时系统负责删除文件。

8.2 基于符号链的共享方式(软链接)

image-20230627230119130

总结

image-20230627230400612

9、文件保护

image-20230629214444699

口令保护

为文件设置一个“口令”(如:abc112233),用户请求访问该文件时必须提供“口令”

口令一般存放在文件对应的 FCB 或索引结点中。用户访问文件前需要先输入“口令”,操作系统会将用户提供的口令与FCB中存储的口令进行对比,如果正确,则允许该用户访问文件

优点:保存口令的空间开销不多,验证口令的时间开销也很小。

缺点:正确的口令存放在系统内部,不够安全

加密保护

使用某个“密码”对文件进行加密,在访问文件时需要提供正确的“密码”才能对文件进行正确的解密。

image-20230629215510711

访问控制表

在每个文件的FCB(或索引结点)中增加一个访问控制列表 (Access-ControlList,ACL),该表中记录了各个用户可以对该文件执行哪些操作。

image-20230629220230513

image-20230629220342902

总结

image-20230629220716122

10、文件系统的层次结构

image-20230629221243244

image-20230629221431377

11、文件系统的全局结构

下面演示文件系统是如何在初始磁盘下一步步建立的

原始磁盘: 没有划分扇区

image-20230629221723540

物理格式化:即低级格式化 —— 划分扇区,监测坏扇区,并用备用扇区替换坏扇区

image-20230629221851352

逻辑格式化 : 逻辑格式化后,磁盘分区(分卷 Volume),完成各分区的文件系统初始化

注:逻辑格式化后,灰色部分就有实际数据了,白色部分还没有数据

image-20230629222501014

open系统调用打开文件的背后过程

image-20230629223013446

12、虚拟文件系统

普通的文件系统

在计算机中,可能会包含多个不同的文件系统,比如:U盘的文件系统是 FAT文件系统,本机中为 UFS文件系统,这也就表示不同的文件系统可能对应不同的函数接口。

image-20230629223107653

虚拟文件系统

使用一个 虚拟文件系统,对不同文件系统的函数定义同一的规则,然后由虚拟文件系统对上层应用程序提供某些功能

image-20230629223600594

存在的问题: 不同的文件系统,表示文件数据结构各不相同打开文件后,其在内存中的表示就不同

image-20230629224516075

不同的文件系统读入的文件有可能不同,为了解决这个问题,每当我们打开一个文件之后,VFS 会创建一个 vnode(v节点),无论打开哪个文件系统,都将文件信息保存到 vnode 中,保证数据结构的统一

image-20230629224407870

注意: vnode 只存在于主存中,而 inode 既会被调入主存,也会在外存中存储。

inode(存在外存) ——》主存 ——》 vnode

打开文件后,创建vnode,并将文件信息复制到vnode中,vnode的功能指针指向具体文件系统的函数功能。

image-20230629224720514

文件系统的挂载

文件系统挂载(mounting),即文件系统安装/装载–如何将文件系统挂载到操作系统中。

image-20230629225157280

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鲨瓜2号

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值