文件IO
相关函数及其介绍
一个进程默认打开3个文件描述符:
- STDIN_FILENO 0
- STDOUT_FILENO 1
- STDERR_FILENO 2
新打开文件返回文件描述符表中未使用的最小文件描述符。
open函数可以打开或创建一个文件:
LInux下查看man手册中open函数:man 2 open
或者在vi编辑模式下,将光标移到open函数的位置,先按"Esc"退出编辑模式,再按"2或3"和"K"(大写),也可以查看帮助文档。
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
- int open(const char *pathname, int flags);
- int open(const char *pathname, int flags, mode_t mode);
返回值:成功返回新分配的文件描述符,出错返回-1并设置errno
pathname参数是要打开或创建的文件名,和fopen一样,pathname既可以是相对路径也可以是绝对路径。
flags参数有一系列常数值可供选择,可以同时选择多个常数用按位或运算符连接起来,所以这些常数的宏定义都以O_开头,表示or。
必选项:
以下三个常数中必须指定一个,且仅允许指定一个:
- O_RDONLY 只读打开
- O_WRONLY 只写打开
- O_RDWR 可读可写打开
以下可选项可以同时指定0个或多个,和必选项按位或起来作为flags参数。可选项有很多, 这里只介绍一部分,其它选项可参考man手册:
- O_APPEND 表示追加。如果文件已有内容,这次打开文件所写的数据附加到文件的末尾而不覆盖原来的内容。
- O_CREAT 若此文件不存在则创建它。使用此选项时需要提供第三个参数mode,表示该文件的访问权限。
- O_EXCL 如果同时指定了O_CREAT,并且文件已存在,则出错返回。
- O_TRUNC 如果文件已存在,并且以只写或可读可写方式打开,则将其长度截断(Trun-cate)为0字节。
- O_NONBLOCK 对于设备文件,以O_NONBLOCK方式打开可以做非阻塞I/O(Nonblock I/ O)。
注意open函数与C标准I/O库的fopen函数有些细微的区别:
- 以可写的方式fopen一个文件时,如果文件不存在会自动创建,而open一个文件时必须明确指定O_CREAT才会创建文件,否则文件不存在就出错返回。
- 以w或w+方式fopen一个文件时,如果文件已存在就截断为0字节,而open一个文件时必须明确指定O_TRUNC才会截断文件,否则直接在原来的数据上改写。
mode参数指定文件权限,可以用八进制数表示,比如0644表示-rw-r--r--,也可以用S_IRUSR、S_IWUSR等宏定义按位或起来表示,详见man手册。要注意的是,文件权限由open的mode参数和当前进程的umask掩码共同决定。
补充说明一下Shell的umask命令。Shell进程的umask掩码可以用umask命令查看:
- $ umask
- 用touch命令创建一个文件时,创建权限是0666,而touch进程继承了Shell进程的umask掩码(022),所以最终的文件权限是0666&~022=0644。
- 同样道理,用gcc编译生成一个可执行文件时,创建权限是0777,而最终的文件权限是 0777&~022=0755。
我们看到的都是被umask掩码修改之后的权限,那么如何证明touch或gcc创建文件的权限本来应该是0666和0777呢?只需要把Shell进程的umask改成0即可:
- $umask 0
关于文件权限:
- 在 Linux 系统中,文件权限通常以三位八进制数表示,每位数字分别代表所有者(Owner)、用户组(Group)和其他用户(Others)的权限。权限的每一位由读(4)、写(2)、执行(1)权限组成,它们可以相加得到一个八进制数。
0777
是一个特殊的八进制数,它表示最大的权限设置,即所有者、用户组和其他用户都有读、写、执行权限:
4
(读) +2
(写) +1
(执行) =7
- 因此,
0777
表示rwxrwxrwx
022
是umask
的一个值,它指定了文件创建时默认应该屏蔽掉的权限。
022
表示用户组和其他用户都没有写权限。(解释:022对应二进制为:000 010 010,表示对于所有者不屏蔽,对于用户组屏蔽写权限,对于其他用户屏蔽写权限)
close函数关闭一个已打开的文件:
#include <unistd.h>
- int close(int fd);
返回值:成功返回0,出错返回-1并设置errno
参数fd是要关闭的文件描述符。需要说明的是,当一个进程终止时,内核对该进程所有尚未关闭的文件描述符调用close关闭,所以即使用户程序不调用close,在终止时内核也会自动关闭它打开的所有文件。但是对于一个长年累月运行的程序(比如网络服务器),打开的文件描述符一定要记得关闭,否则随着打开的文件越来越多,会占用大量文件描述符和系统资源。
由open返回的文件描述符一定是该进程尚未使用的最小描述符。由于程序启动时自动打开文件描述符0、1、2,因此第一次调用open打开文件通常会返回描述符3,再调用open就会返回4。可以利用这一点在标准输入、标准输出或标准错误输出上打开一个新文件,实现重定向的功能。(例如:首先调用close关闭文件描述符1,然后调用open打开一个常规文件,则一定会返回文件描述符1,这时候标准输出就不再是终端,而是一个常规文件了,再调用printf就不会打印到屏幕上,而是写到这个文件中了)后面会涉及dup2函数提供了另外一种办法在指定的文件描述符上打开文件。
自定义实现touch命令:
比如我们想创建a、b、c三个文件,之前:touch a b c,现在./a.out a b c也可实现。
read函数从打开的设备或文件中读取数据:
#include <unistd.h>
- ssize_t read(int fd, void *buf, size_t count);
返回值:成功返回读取的字节数,出错返回-1并设置errno,如果在调read之前已到达文件末尾,则这次read返回0
write函数向打开的设备或文件中写数据:
#include <unistd.h>
- ssize_t write(int fd, const void *buf, size_t count);
返回值:成功返回写入的字节数,出错返回-1并设置errno
写常规文件时,write的返回值通常等于请求写的字节数count,而向终端设备或网络写则不一定。
这里注意一下,对于read函数,通常用sizeof计算大小;对于write函数,通常用strlen计算大小。
为什么向终端设备或网络写入时,write
返回值可能小于请求的字节数?
- 缓冲:终端设备通常使用缓冲写入,数据可能在缓冲区中等待,直到缓冲区满了或遇到特定的字符(如换行符)才会被写入。
- 流控制:网络通信中的流控制机制(如 TCP 的窗口大小)可以限制发送的数据量,以避免接收方来不及处理。
- 错误和异常:写入过程中可能遇到错误或异常情况,导致写入中断或失败。
- 非阻塞 I/O:如果文件描述符被设置为非阻塞模式,
write
调用可能在没有数据可以写入时立即返回,而不是等待。
自定义实现cp命令:
比如我们想将a文件复制到b文件,之前:cp a b,现在./a.out a b 也可实现。
最大打开文件个数:
- 查看当前系统允许打开最大文件个数
- cat /proc/sys/fs/file-max
- 当前默认设置最大打开文件个数1024
- ulimit -a
- 修改默认设置最大打开文件个数为4096
- ulimit -n 4096
打印错误日志:
errno、perror、strerror:
lseek函数每个打开的文件都记录着当前读写位置,打开文件时读写位置是0,表示文件开头,通常读写多少个字节就会将读写位置往后移多少个字节。但是有一个例外,如果以O_APPEND方式打开,每次写操作都会在文件末尾追加数据,然后将读写位置移到新的文件末尾。lseek和标准I/O库的fseek函数类似,可以移动当前读写位置(或者叫偏移量)。
#include <sys/types.h>
#include <unistd.h>
- off_t lseek(int fd, off_t offset, int whence);
返回值:成功返回当前偏移量,失败返回-1
参数offset和whence的含义和fseek函数完全相同。只不过第一个参数换成了文件描述符(fseek中第一个参数为FILE *stream,即指向 FILE
结构的指针)。和fseek一样,偏移量允许超过文件末尾,这种情况下对该文件的下一次写操作将延长文件,中间空洞的部分读出来都是0。
若lseek成功执行,则返回新的偏移量,因此可用以下方法确定一个打开文件的当前偏移量:
off_t currpos;
currpos = lseek(fd, 0, SEEK_CUR);
这种方法也可用来确定文件或设备是否可以设置偏移量,常规文件都可以设置偏移量,而设备一般是不可以设置偏移量的。如果设备不支持lseek,则lseek返回-1,并将errno 设置为ESPIPE。(注意fseek和lseek在返回值上有细微的差别,fseek成功时返回0失败时返回-1,要返回当前偏移量需调用ftell)。
阻塞与非阻塞
阻塞 I/O(Blocking I/O):
- 当一个进程执行阻塞 I/O 操作时,它会被挂起(阻塞),直到数据被完全读取或写入。在这段时间内,进程不能执行其他操作。
- 典型的文件读写操作默认是阻塞的。
- 阻塞 I/O 通常用于交互式应用程序,或者在可以容忍等待的场景中。
非阻塞 I/O(Non-blocking I/O):
- 当一个进程执行非阻塞 I/O 操作时,它会立即返回,不会等待 I/O 操作完成。如果数据没有立即可用,操作通常会返回一个错误码,如
EAGAIN
或EWOULDBLOCK
。- 非阻塞 I/O 允许进程同时处理其他任务,而不是等待 I/O 操作完成。
- 非阻塞 I/O 通常用于需要高性能和可伸缩性的网络服务器和实时应用程序。
fcntl函数改变一个已打开的文件的属性:
#include <unistd.h>
#include <fcntl.h>
- int fcntl(int fd, int cmd);
- int fcntl(int fd, int cmd, long arg);
- int fcntl(int fd, int cmd, struct flock *lock);
这个函数和open一样,也是用可变参数实现的,可变参数的类型和个数取决于前面的cmd参数。
//获取标准输入文件的现有属性
int flags = fcntl(STDIN_FILENO,F_GETFL);
//在现有属性基础上增加非阻塞
flags = flags | O_NONBLOCK;
//把属性重新设置到标准输入文件上
fcntl(STDIN_FILENO,F_SETFL,flags);
文件系统
以ext2为例:
问:一个inode节点数据块指针只有60B,那么对于大数据文件怎么存储?
如图所示,理论上,可以存储12x4K+4M+4G+4T大小的数据。
当我们touch一个文件,向里面写入“HelloWorld”时,发生了什么?
- 首先来到Boot Block,查看磁盘分了几个区。
- 随后查看GDT块组描述符表,读各记录项的起始位置。
- 找到空闲inode节点,存入文件属性(文件名、所有者、权限、时间等),同时将inode bitmap置1(0代表未占用,1代表占用)。
- 找到空闲data block,写入HelloWorld,写完把占用块地址写入数据块指针,同时将block bitmap置1
读取时,发生了什么?
- 首先来到Boot Block,查看磁盘分了几个区。
- 随后查看GDT块组描述符表,读inode table的起始位置。
- 根据文件节点编号,算出inode节点的位置,然后读取inode节点中的数据块指针指向的data block中的内容,即对应文件内容。
文件节点编号:
删除时,发生了什么?
- 首先来到Boot Block,查看磁盘分了几个区。
- 随后查看GDT块组描述符表,读block bitmap、inode bitmap的起始位置。
- 将文件对应block bitmap、inode bitmap置0即可。
硬链接与符号链接
硬链接(Hard Link):
- 定义:硬链接是文件系统中的文件的另一个名称。它不是新文件,而是现有文件的另一个引用。
- 特性:
- 硬链接与原文件共享相同的 inode,因此它们实际上是同一个文件。
- 不能跨文件系统创建硬链接。
- 不能为目录创建硬链接,因为这可能导致文件系统结构混乱。
- 删除硬链接不会影响原文件,只有当所有硬链接都被删除后,文件数据才会被删除。
符号链接(Symbolic Link,软链接):
- 定义:符号链接是一个特殊类型的文件,它包含了另一个文件或目录的路径。
- 特性:
- 符号链接类似于 Windows 中的快捷方式。
- 符号链接包含指向目标的路径,因此它是一个独立的文件,可以跨文件系统。
- 可以为目录创建符号链接。
- 如果目标文件被移动或删除,符号链接将变为“悬空”(dangling),不再指向任何文件。
- 删除符号链接不会影响目标文件。
默认情况下,ln产生硬链接。如果给ln命令加上-s选项,则建立符号链接,如下:
touch hello
ln hello word_h
这会创建一个名为word_h的硬链接,指向hello。
ln –s hello word_s
这会创建一个名为word_s的软链接,指向hello。
#include <unistd.h>
- int unlink(const char *pathname);
- 如果是符号链接,删除符号链接
- 如果是硬链接,硬链接数减1,当减为0时,释放数据块和inode
- 如果文件硬链接数为0,但有进程已打开该文件,并持有文件描述符,则等该进程关闭该文件时,kernel才真正去删除该文件
- 利用该特性创建临时文件,先open或creat创建一个文件,马上unlink此文件
返回值:
0
:成功删除文件或目录。-1
:删除失败,errno
会被设置以指示错误原因。
stat既有命令也有同名函数,用来获取文件Inode里主要信息:
#include <sys/types.h>
#include <sys/stat.h>
#include <unistd.h>
- int stat(const char *path, struct stat *buf);
- int fstat(int fd, struct stat *buf);
- int lstat(const char *path, struct stat *buf);
stat跟踪符号链接,lstat不跟踪符号链接,举例:
access函数用于检查当前用户对指定文件的访问权限:
#include <unistd.h>
- int access(const char *pathname, int mode);
参数mode
- R_OK 是否有读权限
- W_OK 是否有写权限
- X_OK 是否有执行权限
- F_OK 测试一个文件是否存在
access函数跟踪符号链接,举例:
chmod既有命令也有同名函数,用来改变文件权限:
chmod 0777 file.c
#include <sys/stat.h>
- int chmod(const char *path, mode_t mode);
- int fchmod(int fd, mode_t mode);
未完待续......
如有问题,欢迎交流指正!