目录
文件的属性
文件名:由创建文件的用户所决定,主要是为了方便用户找到文件,同级目录下不允许有重名文件。
标识符:系统对文件的标识符是唯一的,操作系统用于区分各个文件的内部名称。
类型:指明文件的类型
位置:文件存放的路径(让用户使用)
文件大小,创建时间,最近一次修改时间。保护信息:用户对文件的访问权限。
磁盘下有许多目录和文件,目录下还可以有其他的目录和文件。
目录其实是一种特殊的结构文件。
操作系统向上提供的功能
1、create系统调用---创建文件
2、delete系统调用---删除文件
3、open系统调用---打开文件
4、close系统调用---关闭文件
5、read系统调用---读取文件
6、write系统调用---写入文件
操作系统向下提供的功能
文件如何存入外存
文件的逻辑结构
逻辑结构是站在用户的角度看数据的存储是如何组织起来的;
物理结构是站在操作系统看来,文件的数据是怎样存放在外存中的。
文件分类
无结构文件:文件内部的数据是由一系列二进制流或字符流组成的。又称“流式文件”。如操作系统的.txt文件。这个文件是没有结构的,无需探讨逻辑结构
有结构文件
又称为“记录式文件”。每条记录由若干个数据项组成。如数据库表文件。一般来说,每排记录又一个数据项可作为关键字(ID)。根据各条记录的长度(占用的存储空间)是否相等,又分为定长记录(数据库的char(3))和可变长记录(数据库的varchar(3))两种。
文件的逻辑结构
有结构的逻辑结构的存储方式有三类:顺序文件,索引文件,索引顺序文件
顺序文件
文件中的记录,一个接着一个地顺序排列(逻辑上),记录可以是定长的或可变长的。各个记录在物理上可以顺序存储或链式存储。
顺序存储,逻辑上的相邻物理上其实也相邻。(数组)
链式存储,逻辑上的相邻,物理上不一定相邻。(链表)
根据记录是否按照关键字的顺序来排列,顺序文件可以分为串结构和顺序结构
串结构:记录之间的顺序与关键字无关,记录通常按照时间排序。
顺序结构:记录之间的顺序按关键字顺序排列
索引文件
建立一张索引表,每个记录对应一个表项。各个记录不用保持顺序,方便增加/删除记录
索引表本生就是定长记录的顺序文件,一个索引表项就是一条定长记录,因此索引文件客户支持随机存取。
若索引表按照关键字排序,则可支持快速检索。
优点:
解决了顺序文件不方便增/删记录的问题,同时让不定长记录的文件实现了随机存取。但索引表可能占用很多空间。
数据库的索引
索引顺序文件
索引顺序文件是索引文件和顺序文件思想的结合。索引顺序文件中,同样会为文件建立一张索引表,但不同的是:并不是每个记录对应一个索引表项,而是一组
记录对应一个索引表项。
多级索引顺序文件
文件目录
文件控制块(FCB)
一个FCB就是一个文件目录项,FCB的集合就是文件目录
FCB中包含了文件的基本信息,包含文件名,物理地址,存取权限等
FCB的主要目的是实现文件的按名存取,用户根据文件名和文件物理地址对文件进行操作
目录结构
单级目录结构
早期操作系统并不支持多级目录,整个系统中自建立一张目录表,每个文件占一个目录项。
单级目录实现了“按名存取”,不允许文件重名
不适用于多级用户系统
两级目录结构
早期的多级用户系统使用两级目录结构
两级目录结构分为主文件目录和用户文件目录
主文件目录记录用户名及相对应的用户文件目录存放的位置。
用户文件目录由该用户的文件控制块组成。
两级目录结构允许不同用户的文件重名(文件名称相同但是对应的其实是不同的文件)
可以在目录上实现访问权限。但是两级目录结构依然缺乏灵活性,用户不可以对自己的文件进行分类。
多级目录结构(树形目录结构)
系统根据文件路径找到目标文件
从根目录出发的路径是绝对路径
从当前目录触发的是相对路径
如果想要访问照片下面的多个文件,可以设置照片称为当前目录,从当前目录后引入查询地址的相对路径,可以减小磁盘I/O
例如当前目录:/照片 相对路径“2015-08/自拍.jpg”;
不同目录下的文件可以重命名,可以对文件进行分类,不方便文件共享
无环图目录结构
在树形目录的基础上增加了一些指向同一节点的有向边,使整个目录成为一个有向无环图。可以方便的实现多个用户间的文件共享。
可以用不同的文件名指向同一个文件,甚至可以指向同一个目录(共享目录下的所有文件)
use1的demo目录和use2的mydemo目录执行同一个文件
文件共享之后,就不可以直接删除文件了
文件共享需要为每一个共享节点设置一个共享计数器,用于记录此时有多少个地方在共享该节点。用户想要删除节点时,只是删除该用户的FCB、并让共享计数器减一,并不会直接删除该节点。只有当共享计数器减为0时,才删除节点。
注意:共享文件不同于复制文件。在共享文件中,由于每个用户指向的是同一文件,因此只要其中一个用户修改了文件数据,其他用户看到的这个文件也是被更改之后的文件
而复制文件和之前的文件是相互独立的,修改不会影响其他文件的数据
索引节点(FCB)的改进
文件控制块中刚开始包含有文件名文件类型,存取权限,物理位置等等属性。但是查找文件的时候只要文件名匹配就能读取文件的信息,这时其他的属性就成为了冗余数据,为了消除冗余,提升磁盘间IO的效率,就引入了索引节点的概念,将除文件名外的所有文件属性,描述信息都放到索引节点中,这时的文件控制块FCB只含有文件名和指向索引节点的指针
文件物理结构
操作系统要对磁盘块进行管理
文件的存储
在内存管理中,用户进程的逻辑地址空间被分为一个一个的页面,同样的,在外存管理中,为了方便对文件数据的管理,文件的逻辑地址空间也被分为了一个个的文件“块”。
文件的逻辑地址表示为逻辑块号、块内地址的形式。
操作系统给逻辑地址分配空间,也都是以“块”为单位分配的
操作系统要负责实现逻辑地址到物理地址的映射
连续分配
要求每个文件在磁盘上占有一组连续的块。
如何实现地址转化:
文件目录中,要增设文件起始块号和大小两个变量
例如:文件aaa在内存中连续存储,起始块号是4,连续占有了3个块的空间
优点
- 连续分配可以直接算出逻辑块号对应的物理块号,因此连续分配支持顺序访问和直接访问。比如说查找文件aaa的逻辑块号是1的部分,那么在文件目录中查找aaa所在的文件目录项(FCB),根据起始块号4+逻辑块号1=实际块号5
- 连续分配的文件在磁盘读写的时候速度最快。
缺点
- 连续分配的文件在外存上不方便拓展。文件aaa想要扩展,那么就要增加内存,但是7已经被占有了,那么文件aaa就需要整体前移到内存的另一部分
- 存储空间利用率低,会产生磁盘碎片(类似于外部碎片)
链接分配
每个文件目录项中(FCB)记录了起始块号和结束块号
除最后一个磁盘块外,其余的磁盘块都多了一个文件指针,这个文件指针永远指向下一个磁盘块,这些指针对用户来说是不可见的。这就是隐式链接。
隐式链接这样做只支持顺序访问,不支持随机访问。(类似链表)
查找效率低,另外指向下一个盘块需要额外的存储空间。
优点
很方便文件拓展(磁盘空间离散分配),不会有碎片问题,外存利用率高。
缺点
只支持顺序访问,不支持随机访问,查找效率低,指向下一个盘块的指针也需要耗费少量的存储空间。
每个文件目录项中(FCB)记录了起始块号
把用于链接文件各个物理块的指针显示的放在一张表中,即文件分配表(FAT)。
一个磁盘只会建立一张文件分配表!!!。开机时文件分配表读入内存,并常住内存。
优点
很方便文件拓展,不会有碎片问题,外存利用率高,并且支持随机访问。相比于隐式链接来说。地址转换时不需要访问磁盘(FAT表在内存中),因此文件的访问效率更高。
缺点:文件分配表需要占用一定的存储空间。
索引分配
索引分配允许文件离散地分配在各个磁盘块中,系统会为每个文件建立一张索引表,索引表中记录了文件的各个逻辑块对应的物理块(索引表的功能类似于内存管理中的页表一一建立逻辑页面到物理页之间的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块。
目录项记录索引块
一个文件对应一张索引表!!!
一个磁盘只会建立一张文件分配表!!!
若文件的索引表太大,一个磁盘装不下这个索引表,可以采取以下三种方法解决:
1、链接方案:如果索引表太大,一个索引块装不下,那么可以将多个索引块链接起来存放。缺点:若文件很大,索引表很长,就需要将很多个索引块链接起来。想要找到1号索引块,必须先读入0号索引块,这样才可以通过0号索引块的指针找到1号索引块的存储位置,这就导致磁盘I/O次数过多,查找效率低下。
2、多层索引:建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引块。还可根据文件大小的要求再建立第三层、第四层索引块。
采用K层索引结构,且顶级索引表未调入内存,则访问一个数据块只需要κ+1次读磁盘操作。缺点:即使是小文件,访问一个数据块依然需要κ+1次读磁盘。
如果采用多级索引,那么各层索引块的大小都不能超过一个磁盘块!!!
逻辑地址到物理地址的转化:
3、混合索引:多种索引分配方式的结合。例如,一个文件的顶级索引表中,既包含直接地址索引(直接指向数据块),又包含一级间接索引(指向单层索引表)、还包含两级间接索引(指向两层索引表)。
优点:对于小文件来说,访问一个数据块所需的读磁盘次数更少。
文件的存储空间管理
存储空间的划分与初始化
安装操作系统时,可以对磁盘分区(C盘,D盘),这里所说的C,D盘就是文件卷(或称逻辑卷、逻辑盘)
磁盘分区其实就是为物理磁盘划分文件卷(逻辑卷、逻辑盘)
存储空间的初始化:将各个文件卷分为目录区和文件区
目录区主要存放目录信息(FCB)、用于磁盘存储空间管理的信息(文件目录,空闲表,位示图,超级块等用于文件管理的数据)
文件区用于存放文件数据。
有的系统支持超大型文件,可支持将多个磁盘联合起来,构成一个文件卷
存储空间管理
空闲表法
适用于连续分配方式。
如何分配磁盘块:
与内存管理中心的动态内存分区很类似,为一个文件分配连续的存储空间。同样可采用首次适应、最佳适应、最坏适应等算法来决定要为文件分配哪个空闲区。
如何回收磁盘块:
回收的时候需要合并空闲区
空闲链表法
空闲链表法分为空闲盘块链和空闲盘区链两种结构。
空闲盘块链---适用于离散分配方式
空闲盘块链,操作系统保存着链头、链尾的指针。将一个个空闲块用指针相连。块中存储着下一个空闲块的指针。
如何分配:若某个文件申请K个盘块,则从链头开始一次取出k个盘块进行分配,并修改链头指针。
如何回收:回收的盘块依次挂到链尾,并修改空闲链尾的指针。
空闲盘区链---适用于离散分配方式和连续分配方式
分配方式:操作系统保存着链头、链尾的指针;若某一个文件申请K个盘块,这可以采用首次适应/最佳适应、最坏适应等算法,从链头开始检索,按照算法规则找到大小合适的空闲盘区;若没有合适的盘区,也可以将不同盘区的盘块同时分配给一个文件
回收方式:如何和回收区相邻,合并;如果不相邻,将回收后的盘区单独作为一个空闲盘区挂在链尾。
位示图法
每个二进制位对一个一个盘块。比如1代表盘块不空闲,0代表空闲的盘块。
位号:代表位示图中的每行的列数。
字号:代表图中的行数
由字号和尾号可以求出二进制位对应的盘块号。
如何推断磁盘的盘块号和(字号,位号的关系)
在以上的例子中,字号0,位号1(0,1)对应的磁盘号是0*16+1=1,其中16是一行存储数据的数目;字号1,位号1(1,1)对应的磁盘号是1*16+1=17
而根据磁盘号反推字号和位号
字号=磁盘号/16;位号=磁盘号%16;
例如:磁盘号1对应字号1/16=0,位号1%16=1,(0,1);磁盘号17对应字号17/16=1,位号17%16=1,(1,1)
若文件需要K个块,
第一步:顺序扫描位示图,找到K个相邻或不相邻的0;
第二步:根据字号、位号算出对应的盘块号,将相对应盘块分配给文件
第三步:将相应位设置成1
根据回收的盘块号计算出字号和位号,将相应的二进制位改成0
这种方式连续分配和离散分配都适用
成组链接法
Unix系统采用的策略,适合大型文件系统。
从文件卷的目录区中用一个磁盘块作为“超级块”,当系统启动时需要将超级块读入内存,并要保证内存与外存中的“超级块”数据一致。
超级块:
超级块中记录了下一组的空闲块数量,同时记录这些空闲块的块号;根据这些块号,可以找到对应的盘块
最后一组没有超级块,比其他少一个记录
如何分配
1、分配一个空闲块,读取超级块的空闲块数量和1比对,将最后一个空闲块也就是201号分配出去,超级块的空闲块号数改为99,并删除201
2、假如分配100个空闲块,读取超级块的空闲块数量和100比对,全部的空闲块都要分配,但是分配之前,要将自己超级块的信息赋值出去
如何回收
1、对应第一种分配一个的情况,此时超级块是99,上限100,没满,将201插入到空闲块信息中,并将空闲块数量+1
2、对应第2种分配100个的情况,满了,将新的空间的超级块先复制第一个超级块的信息,后第一个超级块加载新的空间的信息
文件的基本操作
创建文件
进行Create系统调用时,需要提供的几个主要参数:
- 所需磁盘空间大小
- 文件存放的路径
- 文件名(windows系统中默认的是新键文本文档)
创建文件时,第一步应该在外存中找到文件所需要的存储空间(空闲链表法,位示图法,成组链接法)
第二步,根据文件存放的路径的信息找到该目录对应的目录文件,在目录文件中创建文件对应的目录项。
目录项中包含文件大小,文件名,文件存放位置等信息。
删除文件
delete系统调用
删除操作时需要提供文件存放的路径和文件名。
操作系统根据文件存放的路径找到目录文件,在目录文件下找到与文件名相同的文件,然后根据文件的目录项找到外存地址,回收磁盘块。(空闲表法,空闲链表法,位示图法等策略进行处理)
删除文件目录项。
打开文件
open系统调用
打开文件需要的参数
- 文件存放的路径
- 文件名
- 要对文件进行的操作(读,读写……)
第一步:根据文件路径找到目录文件,从目录中找到与文件名匹配的目录项,并检查用户是不是拥有该文件的操作性权限。
第二步:将该文件的目录项复制到内存的“打开文件表”中,并将文件编号返回给用户。之后用户使用文件的编号就可以对应到文件
将文件的目录项放在内存中就不需要每次都重新查找目录了,可以加快访问速度。
有两个“打开文件表”
关闭文件
操作系统处理Close系统调用时,主要做了以下的事:
- 将进程打开的文件表对应的表项删除。
- 回收分配给该文件的内存空间等资源
- 系统打开文件表的计数器减一,若count=0,则删除对应的表项。
读文件
使用read系统调用
读文件需要提供该文件在打开文件表中的编号,还要指明读入内存多少个字节(一般全部读入),读入内存后放在内存的什么位置。
操作系统在处理read系统调用时,会从读指针指向的外存中,将用户指定大小的数据读入用户指定的内存区域。
写文件
进程使用write系统调用,需要指明是哪个文件(文件编号),还需要指明要写出多少数据,写回外存的数据放在内存什么地方。
操作系统在处理write系统调用时,会从用户指定的内存区域中将指定好的大小的数据,写回外存(磁盘)。
文件共享
基于索引结点的共享方式(硬链接)
在索引结点中设置一个链接计数器,表示链接到本索引节点上的用户目录项数。如果count=2,就说明有两个用户目录项正在共享该文件。
当count=0时系统负责删除该文件。
若count>0,暂时不能把文件数据删除,否则会导致指针悬空。
基于符号链的共享方式(软链接)
符号链接又称为软链接,在一个link型的文件中记录共享文件的存放路径(类似于windows的快捷方式)
文件保护
口令保护
为文件设置一个“口令”,用户想要访问文件时,需要提供口令,系统验证口令是否正确,如果正确才可以访问文件。实现开销小,但是口令是直接存储在操作系统中的,如果系统被入侵,口令也会被别人知道,所以不太安全。
加密保护
用一个密码对文件进行加密,用户进行访问文件时,需要提供相同的“密码”才能正确解密
安全性高,但是加密/解密需要耗费一定的时间
访问控制
这是现代操作系统对此实现的文件保护。
用一个访问控制表记录各个用户或各组用户对文件的访问权限。
对文件的访问类型可以为:读写、执行、删除等
实现灵活,可以实现复杂的文件保护机制。
文件层次结构
- 当用户需要通过操作系统提供的接口发出,如创建文件,删除文件等请求时,就是借用了用户接口
- 由于用户提供的是文件的路径,因此操作系统需要查找目录找到对应的目录项(打开文件表)–文件目录系统
- 不同的用户对文件有不同的操作权限,因此为了保证安全,需要检查用户是否有访问权限–存取控制块
- 验证了用户的访问权限,需要将记录号(打开文件表)转变成一个逻辑地址—逻辑地址与文件信息缓冲区
- 知道了目录记录对应的逻辑地址后,还需要转换成实际的物理地址–物理文件系统
- 删除这条记录,必定要对磁盘设备发起请求–设备管理程序模块
- 删除这些记录后,会有一些盘块空闲,因此要将这些空闲盘块回收–辅助分配模块