操作系统入门 – 文件管理
1.文件管理概述
1.1 文件系统基本功能
目前,计算机内存的容量依然有限,并且其特性决定了数据无法长时间保存,因此把执行的数据以文件形式保存在外存中,等到需要使用时再调入内存。所以,操作系统中需要增加一个文件管理系统用于对文件的保存、读取保护、共享等功能。
- 文件系统五大功能:
- 文件存储空间管理、分配与回收
- 文件目录管理
- 实现逻辑文件到物理文件的转换和映射
- 实现对文件的各种控制操作和存取操作
- 实现文件信息的共享,以及文件保密、保护措施
1.2 文件的组成
- 1.数据项:数据项是文件系统中最低级的数据组织形式
- 基本数据项:用于描述一个对象的某种属性的值,如姓名等,是数据中可命名的最小逻辑数据单位(原子数据)
- 组合数据项:由多个基本数据项组成
- 2.记录:记录是一组相关的数据项集合,用于描述一个对象在某方面的属性,如某一人员信息表包括姓名、性别、电话等信息
- 3.文件:文件是指由创建者所定义的一组相关信息的集合,逻辑上分为
有结构文件
和无结构文件
。在有结构文件中,文件由一组相似的记录组成,如某个班级的学生信息表。而无结构文件则被视为字符流。
1.3 文件属性
文件具有一定的属性,系统不同,属性也会有所不同,文件属性包括了文件名、标识符、类型、位置、大小、创建时间等信息。
1.4 文件类型
按照不同角度可分为:
- 性质与用途:
- 系统文件:如内核、系统程序等,只允许用户执行,无法读写和修改。
- 库文件:只允许读和执行,如C子程序库。
- 用户文件:由用户建立的文件,如源程序、目标程序和数据文件等。只允许文件所有者和所有者授权用户使用。
- 保存期限:
- 临时文件:记有临时性信息的文件。用于系统在工作过程中产生的中间文件,一般有暂存的目录。正常工作情况下,工作完毕会自动删除,一旦有异常情况往往会残留不少临时文件。
- 永久性文件:其信息需要长期保存的文件。指一般受系统管理的各种系统和用户文件,经过安装或编辑、 编译生成的文件,存放在软盘、硬盘或光盘等外存上。
- 档案文件:系统或一些实用工具软件包在工作过程中记录在案的文档资料文件,以便查阅历史档案。
- 按文件中数据形式:
- 源文件:由源程序和数据构成的文件。通常由终端或输入设备输入的源程序和数据所形成的文件都属于源文件。
- 目标文件:源文件被目标语言的编译器进行编译后但并未链接到内存中的文件。
- 可执行文件:编译后的代码进行链接程序后形成的文件。
- 按存取控制属性分类:
- 只执行文件:只允许被核准的用户调用执行,无法读写。
- 只读文件:只允许文件主及被核准的用户读,无法写入。
- 读写文件:允许文件主和被核准的用户区读或写的文件。
- 无保护文件
以下还有其他分类方式,本文不过多赘述
2.文件系统提供的操作
2.1 创建文件
2.1.1 参数提供
在文件创建时需要提供以下几个参数:
- 所需的外存空间大小
- 文件存放路径
- 文件名
2.1.2 创建流程
- 在外存中找到文件所需空间
- 根据文件存放路径的信息找到该目录对应的目录文件,在目录中创建该文件对应的目录项。目录项中包含文件名、文件在外存中存放的位置信息。
2.2 删除文件
2.2.1 参数提供
- 文件存放路径
- 文件名
2.2.2 删除流程
- 根据文件目录找到文件所在位置,从目录中找到文件名对应的目录项
- 根据该目录项记录的文件在外存的存放位置、文件大小等信息,回收文件占用的磁盘。
- 从目录表中删除文件对应的目录项
2.3 打开文件
2.3.1 参数提供
- 文件存放路径
- 文件名
- 要对文件执行的操作类型(r:只读,rw:读写等)
2.3.2 打开流程
- 根据文件存放路径查找相应的目录文件,从目录中找到文件名对应的目录项,并检查该用户是否指定操作权限。
- 将目录项复制到内存中“打开文件表”中。并将对应表目的编号返回给客户。之后用户使用打开文件表的编号来指明要操作的文件。
2.4 关闭文件
- 将进程的打开文件表相应表项删除
- 回收分配给该文件的内存空间等资源
- 系统打开文件表的计数器减一
2.5 读文件
在进行文件读取操作时,需要指明是哪个文件和读入的数据量、读入数据存放的位置。操作系统在读取文件时会从读指针指向的外存中,将用户指定大小的数据读入用户指定的内存区域中。
2.6 写文件
在写文件过程中,需要指明是哪个文件,以及写入数据、文件存放位置等信息。操作系统在处理写入时,会从用户指定的内存区域中,将指定大小的数据写回写指针指向的外存。
2.7 文件系统层次结构
以删除某个文件为例
- 1.用户通过操作系统提供的接口发出操作文件的请求(用户接口)
- 2.由于用户提供文件存放路径,因此需要操作系统逐层查找目录,并找到对应目录项(文件目录系统)
- 3.不同的用户对文件由不同操作权限,为保证安全,需要检查用户是否有访问权限(存取控制模块)
- 4.验证用户的访问权限后,需要把用户提供的“记录号”转为逻辑地址(逻辑文件系统与文件信息缓冲区)
- 5.明确目标记录对应的逻辑地址后,需要转为物理地址(物理文件系统)
- 6.删除记录后会对磁盘发出请求(设备管理程序)
- 7.删除记录后会有磁盘空间剩余,需要将剩余空间回收(辅助分配模块)
3.文件逻辑结构
想要深入了解文件,就需要了解它的逻辑结构,文件的逻辑结构是从用户观点出发看到文件的组织形式;不同于文件的物理结构是从实现观点出发看到的文件在外存上的存储组织形式,与存储介质的特性有很大关系。文件结构大致可分为无结构文件和有结构文件,接下来将一一讲解。
3.1 无结构文件
无结构文件即一系列二进制流或字符流组成的文件,又称为流式文件。如在Windows中的.txt文件。
3.2 有结构文件
有结构文件又称为记录式文件,每条记录又由若干数据项组成,如一张学生信息表。根据表中各个记录长度来判断可以分为定长记录和可变记录。接下来讲解有结构文件的组织方式
3.2.1 顺序文件
顺序文件即在逻辑上文件中的记录一个接一个地顺序排列,其中记录可以是定长也可以是可变。各个记录在物理上可以顺序存储或链式存储。
3.2.2 索引文件
索引文件自身是定长记录的顺序文件,由于记录长度固定,因此可以快速找到记录对应的索引项。一般来说索引文件会将关键字作为索引内容,按照关键字进行折半查找。由于索引速度较快,因此索引文件的内容修改速度较快,因此该种类文件适合对信息处理和及时性要求比较高的场景。
3.2.3 索引顺序文件
即索引文件和顺序文件的结合。在该类文件中同样会创建一张索引表,文件中的每组记录会对应一个表项。
4.文件物理结构(外存分配)
文件的物理结构即文件数据在物理存储设备上如何分配和组织的,是从实现观点出发看到的文件在外存上的存储组织形式,与存储介质的特性有很大关系。以下是文件外存分配的介绍
4.1 连续分配
连续分配要求每个我呢间在磁盘上占有一组连续的块。在读取某个磁盘块时,需要移动磁头。访问的两个块相距越远,磁头移动时间越长。因此连续分配在顺序读/写时速度最快,但不方便文件拓展,会产生磁盘碎片。
- 总结
- 优点:支持顺序访问和随机访问,连续分配文件在顺序访问时速度最快
- 缺点:不方便文件拓展,存储空间利用率低,容易产生碎片。
4.2 链接分配
链接分配采用离散的分配方式,并可分为隐式链接和显式链接
4.2.1 隐式链接
除我呢间的最后一个盘块之外,每个盘块中都存有指向下一个盘块的指针。文件目录包括文件第一块的指针和最后一块指针。
- 优点:方便文件拓展,不会产生磁盘碎片,磁盘空间利用率高。
- 缺点:只支持顺序访问,不支持随机访问,查找效率低,指向下一个盘块的指针需要耗费少量存储空间。
4.2.2 显式链接
把用于链接文件个物理块的指针显式地放在一张表中,即文件分配表(FAT)。一个磁盘只会建立一张文件分配表。开机时文件分配表放入内存,并常驻内存
- 优点: 方便文件拓展,无磁盘碎片问题,磁盘空间利用率高,且支持随机访问。相比于隐式链接,地址转换时不需要访问磁盘,文件访问效率高。
- 缺点:文件分配表需要占用一定存储空间。
4.3 索引分配
索引分配允许文件离散地分配在各个磁盘块中,系统会为每个文件建立一张索引表,索引表中记录了文件的各个逻辑块对应的物理块。索引表存放的磁盘块为索引块。文件数据存放的区域为数据块。
4.3.1 链接方案
若索引表太大导致索引块装不下,可以将多个索引块链接起来存放。
- 缺点:若文件较大,索引表会很长,此时需要将多个索引块链接起来,使得查找效率低下。
4.3.2 多层索引
建立索引时,使第一层索引块指向第二层索引块。也可根据文件大小建立更多索引层。采用K层索引结构,且顶级索引表未调入内存,访问一个数据库只需要K+1次读操作。
- 缺点:即使小文件读取操作也是K+1次
4.3.3 混合索引
多种索引方式组合。如一个顶级索引表中,包含了直接地址索引和多级间接索引。
- 优点:对小文件来说,访问一个数据块需要的读操作次数更少。
5.文件目录
文件系统与文件目录相关联,目录中包含看文件相关信息如属性、位置、所有权等。对用户来说,目录是在用户所需文件名和文件之间提供的一种映射,即目录需要实现按名存取。同时目录对系统的存取性能有直接影响,因此需要提高目录的检索速度。本节将讲解目录的结构和实现。
5.1 文件控制块(FCB)
操作系统为实现目录,引入文件控制块的数据结构。文件控制块是用来存放控制文件所需的各种信息的数据结构,FCB的有序集合就称为文件目录,一个FCB就是一个文件目录项。为了创建一个新文件,系统将分配一个FCB并存放于文件目录中称为目录项。
5.2 目录结构
5.2.1 单级目录结构
由于早期的操作系统不支持多级目录,因此整个系统中只建立一张目录表,每个文件占用一个目录项。单级目录实现了“按名存取”,但是不允许文件重名。因此该类型目录并不适合多用户操作系统。
5.2.2 双级目录结构
双级目录结构分为主文件目录和用户文件目录。主文件目录用于记录用户名及相应用户文件目录的存放位置,用户目录中则存放对应用户的文件信息。此时用户可以存储同名文件,单实质上是两个不同文件。两级目录虽然可以实现同名文件存储,但仍缺乏灵活性。
5.2.3 多级目录结构
多级目录结构又称树形目录结构。用户要访问某个文件时需要用文件路径名标识文件,文件路径则为一串字符,各级目录使用"/"分隔,并从根目录触发。
树形目录结构能很方便地对文件进行分类,层次结构清晰,同时也能更有效地对文件进行管理。但树形目录结构并不适合文件共享。
5.2.4 无环图目录结构
在树形目录结构的基础上增加一些指向同一节点的有向边,使整个目录称为一个有向无环图。可以更方便地实现对个用户间的文件共享。