第四章：文件_从文件读取数据后在内存中如何组织?-CSDN博客

本文链接：https://blog.csdn.net/aetawt/article/details/131845728

四、文件

1、初识文件管理

文件的属性

文件名: 由创建文件的用户决定文件名，主要是为了方便用户找到文件，同一目录下不允许有重名文件

标识符: 一个系统内的各文件标识符唯一，对用户来说毫无可读性因此标识符只是操作系统用于区分各个文件的一种内部名称。

类型:指明义件的类型

位置:文件存放的路径(让用户使用)、在外存中的地址(操作系统使用，对用户不可见)

大小:指明文件大小

创建时间、上次修改时间、文件所有者信息
保护信息: 对文件进行保护的访问控制信息

文件的内部数据应该怎样组织起来

对于有结构文件中的每一条数据称为一条记录，记录有多个数据项组成

文件之间应该怎样组织起来

操作系统应该向上（用户）提供哪些功能

文件应该如何放在外存中

总结

2、文件的逻辑结构

逻辑结构 —— 描述文件内部数据如何组织起来的

物理结构 —— 描述数据是如何存放在外存的

类似于数据结构的“逻辑结构”和“物理结构”如“线性表”就是一种逻辑结构，在用户角度看来，线性表就是一组有先后关系的元素序列，如:a.b, c, d, e …

“线性表”这种逻辑结构可以用不同的物理结构实现，如: 顺序表/链表。顺序表的各个元素在逻辑上相邻，在物理上也相邻:而链表的各个元素在物理上可以是不相邻的。因此，顺序表可以实现“随机访问”，而“链表”无法实现随机访问。

可见，算法的具体实现与逻辑结构、物理结构都有关(文件也一样，文件操作的具体实现与文件的逻辑结构、物理结构都有关)

有结构文件

按文件是否有结构分类，可以分为无结构文件、有结构文件两种

无结构文件: 文件内部的数据就是一系列二进制流或字符流组成。又称“流式文件”。如:Windows 操作系统中的.txt 文件。

有结构文件: 由一组相似的记录组成，又称“记录式文件”。每条记录又若千个数据项组成。如:数据库表文件。一般来说，每条记录有一个数据项可作为关键字(作为识别不同记录的ID)

根据各条记录的长度（占用的存储空间）是否相等，又可分为定长记录和可变长记录

有结构文件内部数据的组织形式有三种：

顺序文件

文件中的记录一个接一个地顺序排列(逻辑上)，记录可以是定长的或可变长的。各个记录在物理上可以顺序存储或链式存储。

链式存储无法随机存取，定长顺序存储可实现随机存取，若采用顺序结构，则可以通过关键字查找。

索引文件

索引顺序文件

思考索引文件的缺点:

每个记录对应一个索引表项，因此索引表可能会很大。比如:文件的每个记录平均只占 8B，而每个索引表项占32个字节，那么索引表都要比文件内容本身大4倍，这样对存储空间的利用率就太低了

多级索引顺序文件

为了进一步提高检索效率，可以为顺序文件建立多级索引表。例如，对于一个含 10^6个记录的文件，可先为该文件建立一张低级索引表，每 100 个记录为一组，故低级索引表中共有 10000 个表项(即10000个定长记录)，再把这 10000 个定长记录分组，每组100个，为其建立顶级索引表，故顶级索引表中共有 100 个表项：

总结

3、文件目录

本小节知识总览

3.1 文件控制块

对目录进行的操作？

搜索:当用户要使用一个文件时，系统要根据文件名搜索目录，找到该文件对应的目录项

创建文件:创建一个新文件时，需要在其所属的目录中增加一个目录项

删除文件:当删除一个文件时，需要在目录中删除相应的目录项

显示目录:用户可以请求显示目录的内容，如显示该目录中的所有文件及相应属性

修改目录:某些文件属性保存在目录中，因此这些属性变化时需要修改相应的目录项(如文件重命名)

3.2 单级目录结构

在早期的操作系统中并不支持多级目录，整个系统中只建立一张目录表，每个文件占一个目录项。

3.3 俩级目录结构

早期的多用户操作系统，采用两级目录结构。分为主文件目录(MFD，Master File Directory) 和用户文件目录 (UFD，User Flie Directory)。

3.4 树形目录结构

用户(或用户进程)要访问某个文件时要用文件路径名标识文件，文件路径名是个字符串。各级目录之间用“/”隔开。从根目录出发的路径称为绝对路径。

例如: 自拍.jpg 的绝对路径是“/照片/2015-08/自拍.jpg”

系统根据绝对路径一层一层地找到下一级目录。刚开始从外存读入根目录的目录表: 找到“照片”目录的存放位置后，从外存读入对应的目录表: 再找到“2015-08”目录的存放位置，再从外存读入对应目录表最后才找到文件“自拍.jpg”的存放位置。整个过程需要3次读磁盘I/O操作。

很多时候，用户会连续访问同一目录内的多个文件(比如:接连查看“2015-08”目录内的多个照片文件)显然，每次都从根目录开始查找，是很低效的。因此可以设置一个“当前目录”

例如，此时已经打开了“照片”的目录文件，也就是说，这张目录表已调入内存，那么可以把它设置为“当前目录”。当用户想要访问某个文件时，可以使用从当前目录出发的 “相对路径”

表示当前目录，因此如果“照片”是当前目录，则”自拍.jpg”的相对路径为:在 Linux 中，“./2015-08/自拍.jpg”。从当前路径出发，只需要查询内存中的“照片”目录表，即可知道”2015-08”目录表的存放位置，从外存调入该目录，即可知道“自拍.jpg”存放的位置了。

树形目录结构可以很方便地对文件进行分类，层次结构清晰，也能够更有效地进行文件的管理和保护。但是，树形结构不便于实现文件的共享。为此，提出了“无环图目录结构”

3.5 无环图目录结构

可以用不同的文件名指向同一个文件，甚至可以指向同一个目录(共享同一目录下的所有内容)

需要为每个共享结点设置一个共享计数器，用于记录此时有多少个地方在共享该结点。用户提出删除结点的请求时，只是删除该用户的 FCB、并使共享计数器减1，并不会直接删除共享结点。只有共享计数器减为0时，才删除结点。

注意: 共享文件不同于复制文件。在共享文件中，由于各用户指向的是同一个文件，因此只要其中一个用户修改了文件数据，那么所有用户都可以看到文件数据的变化。

3.6 索引结点（FCB的改进）

索引结点有什么好处？

假设一个FCB是64B，磁盘块的大小为1KB，则每个盘块中只能存放16个FCB。若一个文件目录中共有640个目录项，则共需要占用640/16 =40 个盘块。因此按照某文件名检索该目录，平均需要查询320 个目录项，平均需要启动磁盘20次(每次磁盘I/o读入一块)

若使用索引结点机制，文件名占14B，索引结点指针站2B，则每个盘块可存放64个目录项，那么按文件名检索目录平均只需要读入 320/64 = 5个磁盘块。显然，这将大大提升文件检索速度

当找到文件名对应的目录项时，才需要将索引结点调入内存，索引结点中记录了文件的各种信息，包括文件在外存中的存放位置，根据“存放位置”即可找到文件。

存放在外存中的索引结点称为“磁盘索引结点”，当索引结点放入内存后称为“内存索引结点”，相比之下内存索引结点中需要增加一些信息，比如:文件是否被修改、此时有几个进程正在访问该文件

3.7 总结

4、文件的物理结构

文件的物理结构：文件的数据应该怎样存放在外存中。

补充知识: 文件块、磁盘块

类似于内存分页，磁盘中的存储单元也会被分为一个个 “块、磁盘块、物理块”、在很多操作系统中，磁盘块的大小与内存块、页面的大小相同

原因很简单，内存、外存每次操作的单位一致的话，操作就会很方便。

在内存管理中，进程的逻辑地址空间被分为一个一个页面同样的，在外存管理中，为了方便对文件数据的管理，文件的逻辑地址空间也被分为了一个一个的文件“块”

于是文件的逻辑地址也可以表示为 (逻辑块号，块内地址)的形式

用户通过逻辑地址来操作自己的文件，操作系统要负责实现从逻辑地址到物理地址映射。

4.1 连续分配

连续分配方式要求每个文件在磁盘上占有一组连续的块。

那么操作系统如何实现从逻辑地址到物理地址的映射？

（逻辑块号，块内地址）——》（物理块号，块内地址）

只需要转换号即可，地址保持不变

要完成地址的转换，文件目录中需要记录 起始块号、长度

用户给出要访问的逻辑块号，操作系统找到该文件对应的目录项 (FCB)

物理块号 = 起始块号 + 逻辑块号

当然，还需要检查用户提供的逻辑块号是否合法 (逻辑块号2 长度就不合法)

优点一：因此连续分配支持顺序访问和直接访问（随机访问）

读取某个磁盘块时，需要移动磁头。访问的两个磁盘块相隔越远，移动磁头所需时间就越长。

优点二: 连续分配的文件在顺序读/写时速度最快

假设此时文件A需要扩展，需要四个文件块，那么就需要从黄色部分迁移到绿色部分，这个操作的时间是非常耗时的。’

缺点一： 连续分配的文件不方便扩展

缺点二：物理上采用连续分配，存储空间利用率低，会产生难以利用的磁盘碎片。

可以用紧凑来处理碎片，但是需要消耗很大的时间代价

总结

优点: 支持顺序访问和直接访问(即随机访问); 连续分配的文件在顺序访问时速度最快

缺点: 不方便文件拓展;存储空间利用率低，会产生磁盘碎片

4.2 链接分配

4.2.1 显示分配

链接分配采取离散分配的方式，可以为文件分配离散的磁盘块。分为隐式链接和显式链接两种。

用户给出要访问的逻辑块号i，操作系统找到该文件对应的目录项 (FCB)
从目录项中找到起始块号(即0号块)，将0号逻辑块读入内存，由此知道1号逻辑块存放的物理块号，于是读入1号逻辑块，再找到2号逻辑块的存放位置…以此类推。

结论: 采用链式分配(隐式链接)方式的文件，只支持顺序访问，不支持随机访问（只能从起始块号开始），查找效率低。另外，指向下一个盘块的指针也需要耗费少量的存储空间.

是否方便扩展文件？

假设对 aaa 文件进行扩展，只需要将空闲的块号挂在链尾，并更新FCB

结论: 采用隐式链接的链接分配方式，很方便文件拓展另外，所有的空闲磁盘块都可以被利用，不会有碎片问题外存利用率高

总结

隐式链接：除文件的最后一个盘块之外，每个盘块中都存有指向下一个盘块的指针。文件目录包括文件第一块的指针和最后一块的指针

优点: 很方便文件拓展，不会有碎片问题，外存利用率高。

缺点: 只支持顺序访问，不支持随机访问，查找效率低，指向下一个盘块的指针也需要耗费少量的存储空间。

4.2.2 隐式分配

把用于链接文件各物理块的指针显式地存放在一张表中。即文件分配表 (FAT，File Allocation Table )

在文件分配表中，记录块号的下一块的块号

注意: 一个磁盘仅设置一张FAT ，开机时，将FAT读入内存，并常驻内存。 FAT的各个表项在物理上连续存储，且每一个表项长度相同，因此“物理块号”字段可以是隐含的。

如何实现文件的逻辑块号到物理块号的转变？

用户给出要访问的逻辑块号 i，操作系统找到该文件对应的目录项(FCB）

从目录项中找到起始块号，若i>0，则查询内存中的文件分配表FAT,往后找到i 号逻辑块对应的物理块号。逻辑块号转换成物理块号的过程不需要读磁盘操作

结论: 采用链式分配(显式链接) 方式的文件，支持顺序访问，也支持随机访问 (想访问i 号逻辑块时，并不需要依次访问之前的 0~ i-1号逻辑块) 由于块号转换的过程不需要访问磁盘，因此相比于隐式链接来说，访问速度快很多。

总结

显式链接：把用于链接文件各物理块的指针显式地存放在一张表中，即文件分配表 (FAT，FileAlocation Table)。一个磁盘只会建立一张文件分配表。开机时文件分配表放入内存，并常驻内存。

优点: 很方便文件拓展，不会有碎片问题，外存利用率高，并且支持随机访问。相比于隐式链接来说，地址转换时不需要访问磁盘，因此文件的访问效率更高。

缺点: 文件分配表的需要占用一定的存储空间。

4.3 索引分配

索引分配允许文件离散地分配在各个磁盘块中，系统会为每个文件建立一张索引表，索引表中记录了文件的各个逻辑块对应的物理块(索引表的功能类似于内存管理中的页表–建立逻辑页面到物理页之间的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块。

在 FCB 中记录文件对应的索引块：

7号磁盘块保存 ‘aaa’ 的索引表，2、5、13、9 则是 aaa 的数据块

注: 在显式链接的链式分配方式中，文件分配表FAT 是一个磁盘对应一张。而索引分配方式中，索引表是一个文件对应一张。

可以用固定的长度表示物理块号 (如:假设磁盘总容量为1TB=240B，磁盘块大小为1KB，则共有 230个磁盘块，则可用4B 表示磁盘块号)，因此，索引表中的“逻辑块号”可以是隐含的。

如何实现逻辑块号到物理块号的转换？

用户给出要访问的逻辑块号i，操作系统找到该文件对应的目录项 (FCB)

从目录项中可知索引表存放位置，将索引表从外存读入内存，并查找索引表即可只i号逻辑块在外存中的存放位置。

因此，索引分配方式可以支持随机访问，文件扩展也很容易实现（只需要给文件分配一个空闲块，并增加一个索引表项即可）。

思考？

若每个磁盘块1KB，一个索引表项4B（以下计算都是以此为为基准），则一个磁盘块只能存放 256 个索引项
如果一个文件的大小超过了256块，那么一个磁盘块是装不下文件的整张索引表的，如何解决这个问题?

链接方案
多层索引
混合索引

4.3.1 链接方案

如果索引表太大，一个索引块装不下，那么可以将多个索引块链接起来存放。

FCB 中只需要记录第一个索引块，在一个索引块中的索引表中会记录指向下一个索引块的指针。

如果想要访问第二个索引块中的内容，则需要先将第一个索引块读入内存，找到第二个索引块进行读取。

那么问题就来了？假设文件太大，需要用256 个索引块存储，想要访问第 256 个索引块，还必须先访问前面 255 个索引块，显然这时很低效的。

4.3.2 多层索引

建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引快。还可根据文件大小的要求再建立第三层、第四层索引块。

每一个索引项又是一个索引表。

注意：每一个索引表的大小都不能超过一个磁盘块大小。

因此，若采用俩层索引，则该文件最大长度可以到：

256 * 256 * 1kb = 65536 kb = 64MB

逻辑块号到物理块号的转变

可以根据逻辑块号算出应该查找索引表中的哪个表项, 如果想要访问 1026 号逻辑块：

1026/256 = 4，// 查询第四个索引表

1026%256=2 // 第二个表项

因此可以先将一级索引表调入内存，查询 4 号表项,将其对应的二级索引表调入内存，再查询二级索引表的2号表项即可知道 1026 号逻辑块存放的磁盘块号了访问目标数据块，需要3次磁盘I/0.

多层索引的分配方式还有一个问题，就是如果文件太小，假设只有 1KB，使用多级索引就有点浪费了，因此有了混合索引

4.3.3 混合索引

多种索引分配方式的结合。例如，一个文件的顶级索引表中，既包含直接地址索引(直按指向数据块)，又包含一级间接索引(指向单层索引表)、还包含两级间接索引(指向两层索引表)。

总结

4.4 总结

5、文件逻辑结构与物理结构的区别

1、C语言创建无结构文件

FILE *fp = fopen("test.txt”，"w"); //打开文件
if( fp == NULL ){
	printf("打开文件失败!");
    exit(0);
}
//写入1w个Hello world
for (int i=0; i<10000; i++)
fputs("Hello world!"， fp);
fclose(fp);