Linux文件系统

文件IO

相关函数及其介绍

一个进程默认打开3个文件描述符:

  • STDIN_FILENO      0 
  • STDOUT_FILENO  1 
  • STDERR_FILENO  2

新打开文件返回文件描述符表中未使用的最小文件描述符。

open函数可以打开或创建一个文件:

LInux下查看man手册中open函数:man 2 open

或者在vi编辑模式下,将光标移到open函数的位置,先按"Esc"退出编辑模式,再按"2或3"和"K"(大写),也可以查看帮助文档。

#include <sys/types.h>

#include <sys/stat.h>

#include <fcntl.h>

  • int open(const char *pathname, int flags);
  • int open(const char *pathname, int flags, mode_t mode);

返回值:成功返回新分配的文件描述符,出错返回-1并设置errno

pathname参数是要打开或创建的文件名,和fopen一样,pathname既可以是相对路径也可以是绝对路径。
flags参数有一系列常数值可供选择,可以同时选择多个常数用按位或运算符连接起来,所以这些常数的宏定义都以O_开头,表示or。 

必选项:

以下三个常数中必须指定一个,且仅允许指定一个:

  • O_RDONLY 只读打开 
  • O_WRONLY 只写打开 
  • O_RDWR 可读可写打开

以下可选项可以同时指定0个或多个,和必选项按位或起来作为flags参数。可选项有很多, 这里只介绍一部分,其它选项可参考man手册:

  • O_APPEND 表示追加。如果文件已有内容,这次打开文件所写的数据附加到文件的末尾而不覆盖原来的内容。 
  • O_CREAT 若此文件不存在则创建它。使用此选项时需要提供第三个参数mode,表示该文件的访问权限。 
  • O_EXCL 如果同时指定了O_CREAT,并且文件已存在,则出错返回。 
  • O_TRUNC 如果文件已存在,并且以只写或可读可写方式打开,则将其长度截断(Trun-cate)为0字节。 
  • O_NONBLOCK 对于设备文件,以O_NONBLOCK方式打开可以做非阻塞I/O(Nonblock I/ O)。

注意open函数与C标准I/O库的fopen函数有些细微的区别:

  • 以可写的方式fopen一个文件时,如果文件不存在会自动创建,而open一个文件时必须明确指定O_CREAT才会创建文件,否则文件不存在就出错返回。
  • 以w或w+方式fopen一个文件时,如果文件已存在就截断为0字节,而open一个文件时必须明确指定O_TRUNC才会截断文件,否则直接在原来的数据上改写。

mode参数指定文件权限,可以用八进制数表示,比如0644表示-rw-r--r--,也可以用S_IRUSR、S_IWUSR等宏定义按位或起来表示,详见man手册。要注意的是,文件权限由open的mode参数和当前进程的umask掩码共同决定。

补充说明一下Shell的umask命令。Shell进程的umask掩码可以用umask命令查看:

  • $ umask
  • 用touch命令创建一个文件时,创建权限是0666,而touch进程继承了Shell进程的umask掩码(022),所以最终的文件权限是0666&~022=0644。

  • 同样道理,用gcc编译生成一个可执行文件时,创建权限是0777,而最终的文件权限是 0777&~022=0755。

我们看到的都是被umask掩码修改之后的权限,那么如何证明touch或gcc创建文件的权限本来应该是0666和0777呢?只需要把Shell进程的umask改成0即可:

  • $umask 0

关于文件权限:

  • 在 Linux 系统中,文件权限通常以三位八进制数表示,每位数字分别代表所有者(Owner)、用户组(Group)和其他用户(Others)的权限。权限的每一位由读(4)、写(2)、执行(1)权限组成,它们可以相加得到一个八进制数。

0777 是一个特殊的八进制数,它表示最大的权限设置,即所有者、用户组和其他用户都有读、写、执行权限:

  • 4(读) + 2(写) + 1(执行) = 7
  • 因此,0777 表示 rwxrwxrwx

022umask 的一个值,它指定了文件创建时默认应该屏蔽掉的权限。

  • 022 表示用户组和其他用户都没有写权限。(解释:022对应二进制为:000 010 010,表示对于所有者不屏蔽,对于用户组屏蔽写权限,对于其他用户屏蔽写权限)

close函数关闭一个已打开的文件:

#include <unistd.h>

  • int close(int fd);

返回值:成功返回0,出错返回-1并设置errno

参数fd是要关闭的文件描述符。需要说明的是,当一个进程终止时,内核对该进程所有尚未关闭的文件描述符调用close关闭,所以即使用户程序不调用close,在终止时内核也会自动关闭它打开的所有文件。但是对于一个长年累月运行的程序(比如网络服务器),打开的文件描述符一定要记得关闭,否则随着打开的文件越来越多,会占用大量文件描述符和系统资源。 

由open返回的文件描述符一定是该进程尚未使用的最小描述符。由于程序启动时自动打开文件描述符0、1、2,因此第一次调用open打开文件通常会返回描述符3,再调用open就会返回4。可以利用这一点在标准输入、标准输出或标准错误输出上打开一个新文件,实现重定向的功能。(例如:首先调用close关闭文件描述符1,然后调用open打开一个常规文件,则一定会返回文件描述符1,这时候标准输出就不再是终端,而是一个常规文件了,再调用printf就不会打印到屏幕上,而是写到这个文件中了)后面会涉及dup2函数提供了另外一种办法在指定的文件描述符上打开文件。

自定义实现touch命令:

比如我们想创建a、b、c三个文件,之前:touch a b c,现在./a.out a b c也可实现。

read函数从打开的设备或文件中读取数据:

#include <unistd.h>

  • ssize_t read(int fd, void *buf, size_t count); 

返回值:成功返回读取的字节数,出错返回-1并设置errno,如果在调read之前已到达文件末尾,则这次read返回0

write函数向打开的设备或文件中写数据:

#include <unistd.h>                   

  • ssize_t write(int  fd, const  void  *buf, size_t  count); 

返回值:成功返回写入的字节数,出错返回-1并设置errno

写常规文件时,write的返回值通常等于请求写的字节数count,而向终端设备或网络写则不一定。

这里注意一下,对于read函数,通常用sizeof计算大小;对于write函数,通常用strlen计算大小。

为什么向终端设备或网络写入时,write 返回值可能小于请求的字节数?

  • 缓冲:终端设备通常使用缓冲写入,数据可能在缓冲区中等待,直到缓冲区满了或遇到特定的字符(如换行符)才会被写入。
  • 流控制:网络通信中的流控制机制(如 TCP 的窗口大小)可以限制发送的数据量,以避免接收方来不及处理。
  • 错误和异常:写入过程中可能遇到错误或异常情况,导致写入中断或失败。
  • 非阻塞 I/O:如果文件描述符被设置为非阻塞模式,write 调用可能在没有数据可以写入时立即返回,而不是等待。

自定义实现cp命令:

比如我们想将a文件复制到b文件,之前:cp a b,现在./a.out a b 也可实现。

最大打开文件个数:

  • 查看当前系统允许打开最大文件个数
  • cat /proc/sys/fs/file-max
  • 当前默认设置最大打开文件个数1024
  • ulimit -a
  • 修改默认设置最大打开文件个数为4096
  • ulimit -n  4096

打印错误日志:

errno、perror、strerror:

lseek函数每个打开的文件都记录着当前读写位置,打开文件时读写位置是0,表示文件开头,通常读写多少个字节就会将读写位置往后移多少个字节。但是有一个例外,如果以O_APPEND方式打开,每次写操作都会在文件末尾追加数据,然后将读写位置移到新的文件末尾。lseek和标准I/O库的fseek函数类似,可以移动当前读写位置(或者叫偏移量)。

#include <sys/types.h>

#include <unistd.h>

  • off_t lseek(int fd, off_t offset, int whence);

返回值:成功返回当前偏移量,失败返回-1

参数offset和whence的含义和fseek函数完全相同。只不过第一个参数换成了文件描述符(fseek中第一个参数为FILE *stream,即指向 FILE 结构的指针)。和fseek一样,偏移量允许超过文件末尾,这种情况下对该文件的下一次写操作将延长文件,中间空洞的部分读出来都是0。

若lseek成功执行,则返回新的偏移量,因此可用以下方法确定一个打开文件的当前偏移量:

off_t currpos;

currpos = lseek(fd, 0, SEEK_CUR);

这种方法也可用来确定文件或设备是否可以设置偏移量,常规文件都可以设置偏移量,而设备一般是不可以设置偏移量的。如果设备不支持lseek,则lseek返回-1,并将errno 设置为ESPIPE。(注意fseek和lseek在返回值上有细微的差别,fseek成功时返回0失败时返回-1,要返回当前偏移量需调用ftell)。

阻塞与非阻塞

阻塞 I/O(Blocking I/O):

  • 当一个进程执行阻塞 I/O 操作时,它会被挂起(阻塞),直到数据被完全读取或写入。在这段时间内,进程不能执行其他操作。
  • 典型的文件读写操作默认是阻塞的。
  • 阻塞 I/O 通常用于交互式应用程序,或者在可以容忍等待的场景中。

非阻塞 I/O(Non-blocking I/O):

  • 当一个进程执行非阻塞 I/O 操作时,它会立即返回,不会等待 I/O 操作完成。如果数据没有立即可用,操作通常会返回一个错误码,如 EAGAIN 或 EWOULDBLOCK
  • 非阻塞 I/O 允许进程同时处理其他任务,而不是等待 I/O 操作完成。
  • 非阻塞 I/O 通常用于需要高性能和可伸缩性的网络服务器和实时应用程序。

fcntl函数改变一个已打开的文件的属性:

#include <unistd.h>

#include <fcntl.h>

  • int fcntl(int fd, int cmd);
  • int fcntl(int fd, int cmd, long arg);
  • int fcntl(int fd, int cmd, struct flock *lock);

这个函数和open一样,也是用可变参数实现的,可变参数的类型和个数取决于前面的cmd参数。

//获取标准输入文件的现有属性

int flags = fcntl(STDIN_FILENO,F_GETFL);

//在现有属性基础上增加非阻塞

flags = flags | O_NONBLOCK;

//把属性重新设置到标准输入文件上

fcntl(STDIN_FILENO,F_SETFL,flags);

文件系统

以ext2为例:

问:一个inode节点数据块指针只有60B,那么对于大数据文件怎么存储?

如图所示,理论上,可以存储12x4K+4M+4G+4T大小的数据。 

当我们touch一个文件,向里面写入“HelloWorld”时,发生了什么?

  1. 首先来到Boot Block,查看磁盘分了几个区。
  2. 随后查看GDT块组描述符表,读各记录项的起始位置。
  3. 找到空闲inode节点,存入文件属性(文件名、所有者、权限、时间等),同时将inode bitmap置1(0代表未占用,1代表占用)。
  4. 找到空闲data block,写入HelloWorld,写完把占用块地址写入数据块指针,同时将block bitmap置1

读取时,发生了什么?

  1. 首先来到Boot Block,查看磁盘分了几个区。
  2. 随后查看GDT块组描述符表,读inode table的起始位置。
  3. 根据文件节点编号,算出inode节点的位置,然后读取inode节点中的数据块指针指向的data block中的内容,即对应文件内容。

文件节点编号:

删除时,发生了什么?

  1. 首先来到Boot Block,查看磁盘分了几个区。
  2. 随后查看GDT块组描述符表,读block bitmap、inode bitmap的起始位置。
  3. 将文件对应block bitmap、inode bitmap置0即可。

硬链接与符号链接

硬链接(Hard Link):

  1. 定义:硬链接是文件系统中的文件的另一个名称。它不是新文件,而是现有文件的另一个引用。
  2. 特性:
    • 硬链接与原文件共享相同的 inode,因此它们实际上是同一个文件。
    • 不能跨文件系统创建硬链接。
    • 不能为目录创建硬链接,因为这可能导致文件系统结构混乱。
    • 删除硬链接不会影响原文件,只有当所有硬链接都被删除后,文件数据才会被删除。

符号链接(Symbolic Link,软链接):

  1. 定义:符号链接是一个特殊类型的文件,它包含了另一个文件或目录的路径。
  2. 特性
    • 符号链接类似于 Windows 中的快捷方式。
    • 符号链接包含指向目标的路径,因此它是一个独立的文件,可以跨文件系统。
    • 可以为目录创建符号链接。
    • 如果目标文件被移动或删除,符号链接将变为“悬空”(dangling),不再指向任何文件。
    • 删除符号链接不会影响目标文件。

默认情况下,ln产生硬链接。如果给ln命令加上-s选项,则建立符号链接,如下:

touch hello

ln hello word_h

这会创建一个名为word_h的硬链接,指向hello。

ln –s hello word_s

 这会创建一个名为word_s的软链接,指向hello。

#include <unistd.h>

  • int unlink(const char *pathname);
  1. 如果是符号链接,删除符号链接
  2. 如果是硬链接,硬链接数减1,当减为0时,释放数据块和inode
  3.  如果文件硬链接数为0,但有进程已打开该文件,并持有文件描述符,则等该进程关闭该文件时,kernel才真正去删除该文件
  4. 利用该特性创建临时文件,先open或creat创建一个文件,马上unlink此文件

返回值:

  • 0:成功删除文件或目录。
  • -1:删除失败,errno 会被设置以指示错误原因。

stat既有命令也有同名函数,用来获取文件Inode里主要信息:

#include <sys/types.h>

#include <sys/stat.h>

#include <unistd.h>

  • int stat(const char *path, struct stat *buf);
  • int fstat(int fd, struct stat *buf);
  • int lstat(const char *path, struct stat *buf);

stat跟踪符号链接,lstat不跟踪符号链接,举例:

access函数用于检查当前用户对指定文件的访问权限:

#include <unistd.h>

  • int access(const char *pathname, int mode);

参数mode

  • R_OK 是否有读权限
  • W_OK 是否有写权限
  • X_OK 是否有执行权限
  • F_OK 测试一个文件是否存在

access函数跟踪符号链接,举例:

chmod既有命令也有同名函数,用来改变文件权限:

chmod 0777 file.c 

#include <sys/stat.h>

  • int chmod(const char *path, mode_t mode);
  • int fchmod(int fd, mode_t mode);

未完待续......

如有问题,欢迎交流指正!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值