1. 文件描述符
文件描述符就是一个非负整数,用于充当文件句柄,以表示一个打开的文件。
标准文件描述符
- 标准输入(0):
STDIN_FILENO
- 标准输出(1):
STDOUT_FILENO
- 标准错误(2):
STDERR_FILENO
2. 文件基础操作
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
int open(const char *pathname, int flags);
int open(const char *pathname, int flags, mode_t mode);
- 前者用于打开一个已有的文件,后者可在文件不存在时创建文件(在
flags
参数中指定O_CREAT
)。 - 成功时返回最小可用的文件描述符,失败时返回 -1。
flags
需至少包含O_RDONLY
(只读)、O_WRONLY
(只写)、O_RDWR
(读写),且这三个值是互斥的。flags
参数也可位或O_APPEND
(追加写入,每次调用write()
时都会将文件偏移量设为文件末尾)、O_CREAT
(文件不存在时创建之,此时需在mode
参数中指定文件的权限信息,可以使用八进制形式指定,如0644
)、O_EXCL
(结合O_CREAT
一起使用,以独占的方式创建文件,如果文件已经存在,则失败返回)、O_TRUNC
(清空文件内容)、O_CLOEXEC
(执行exec
系列调用时,于新进程中关闭此open()
调用所返回的文件描述符)等。
#include <unistd.h>
ssize_t read(int fd, void *buf, size_t count);
- 从
fd
指向的文件中最多读取count
个字节的数据至缓冲区buf
中。 - 成功时返回实际读取到的字节数,到达 EOF 时返回 0,出错时返回 -1。
- 默认情况下,从 stdin 读取数据时,一遇到换行符
read()
调用就会结束。
#include <unistd.h>
ssize_t write(int fd, const void *buf, size_t count);
- 最多将缓冲区
buf
中的count
个字节数据写到fd
指向的文件中。 - 成功时返回实际写入的字节数,出错时返回 -1。
- 对磁盘文件执行写操作时,
write()
调用成功并不意味着数据就已经写入磁盘,因为内核会缓冲磁盘的 I/O 操作。
#include <unistd.h>
int close(int fd);
- 关闭文件描述符,并将其释放回调用进程。
- 成功时返回 0,出错时返回 -1。
- 进程终止时将自动关闭其所有已打开的文件描述符。
#include <sys/types.h>
#include <unistd.h>
off_t lseek(int fd, off_t offset, int whence);
- 修改
fd
所指向文件的文件偏移量,whence
指定要相对于哪个位置来解释offset
参数:SEEK_SET
(相对于文件起始位置,即将文件偏移量设为offset
),SEEK_CUR
(相对于当前文件偏移量,即在当前文件偏移量的基础上加上offset
),SEEK_END
(相对于文件尾部,即将文件偏移量设为文件大小+offset
)。 - 成功时返回新的文件偏移量,出错时返回 -1。
- 文件偏移量是指下一个
read()/write()
操作的文件起始位置,它以相对于文件起始点的距离来表示。 - 打开文件时,文件偏移量为 0;以后每次执行
read()/write()
时都会自动对其进行调整,以指向已读或已写数据的后一个字节。 - 注意:只有一个文件偏移量,由
read()
、write()
共用。 - 如果文件偏移量跨越了文件末尾,则
read()
将返回 0;write()
可以继续写,从文件末尾到新写入数据间的这段空间称为文件空洞;read()
文件空洞将返回 0,但实际上,文件空洞并不占用任何磁盘空间。(如果空洞的边界落在磁盘块内,而非块边界上,则会分配一个完整的块来存储数据,块中与空洞相关的部分以空字节填充。)文件空洞意味着文件名义上的大小可以大于实际所占用的磁盘空间。
3. 其他文件操作
#include <unistd.h>
ssize_t pread(int fd, void *buf, size_t count, off_t offset);
ssize_t pwrite(int fd, const void *buf, size_t count, off_t offset);
- 类似于
read()/write()
,但它们在文件偏移量offset
处执行读写操作,且不会修改文件偏移量,适用于多线程应用场景。 - 但需要注意的是
fd
指向的文件必须是可定位的,即可以调用lseek()
。
#include <sys/uio.h>
ssize_t readv(int fd, const struct iovec *iov, int iovcnt);
ssize_t writev(int fd, const struct iovec *iov, int iovcnt);
ssize_t preadv(int fd, const struct iovec *iov, int iovcnt, off_t offset);
ssize_t pwritev(int fd, const struct iovec *iov, int iovcnt, off_t offset);
struct iovec {
void *iov_base; /* Starting address */
size_t iov_len; /* Number of bytes to transfer */
};
- 分散输入,集中输出:类似于
read()/write()/pread()/pwrite()
,但要写入文件的数据可以来自多个缓冲区,也可以将文件数据读到多个缓冲区。 iovcnt
用于指定iov
数组的大小,iovec
结构体用于指定每个缓冲区的位置和大小。readv()/preadv()/writev()/pwritev()
操作具有原子性,即可以保证读取到的数据是连续的、数据会被写到连续的区域。
#include <unistd.h>
#include <sys/types.h>
int truncate(const char *path, off_t length);
int ftruncate(int fd, off_t length);
- 用于修改文件的大小,前者通过路径指定文件,后者通过文件描述符指定文件。
- 成功时返回 0,出错时返回 -1。
length
指定了文件的新大小,若其大于当前文件大小,则在文件尾部填充空字节或文件空洞,反之截断文件。
#include <unistd.h>
#include <fcntl.h>
int fcntl(int fd, int cmd, ... /* arg */ );
-
用于操控文件描述符,其中
cmd
参数指定了具体的操作,返回值和cmd
有关。 -
获取文件的状态标志:
int fd, flags; flags = fcntl(fd, F_GETFL); if (flags == -1) { // error! } if (flags & O_SYNC) { // write are synchronized }
-
获取文件的访问模式:
int accessMode = flags & O_ACCMODE; if (accessMode == O_RDONLY) { // file is readonly }
-
设置文件的状态标志:
int fd, flags, err; flags = fcntl(fd, F_GETFL); if (flags == -1) { // error! } flags |= O_APPEND; err = fcntl(fd, F_SETFL, flags); if (err == -1) { // error! }
可以设置的标志有
O_APPEND
、O_NONBLOCK
、O_NOATIME
、O_ASYNC
、O_DIRECT
,系统会忽略其他标志。
#include <unistd.h>
int dup(int oldfd);
int dup2(int oldfd, int newfd);
- 复制
oldfd
文件描述符,新的文件描述符和原来的文件描述符指向同一个打开的文件句柄。 - 成功时,
dup()
会返回当前进程中最小可用的文件描述符,dup2()
返回newfd
指定的文件描述符;出错时返回 -1。 - 如果
newfd
已经打开,则会先将其关闭。
4. 文件描述符和文件间的关系
(1)进程级的文件描述符表
内核会为每个进程单独维护一个打开文件的描述符表,表项中包含如下信息:
- 文件描述符标志,目前只有
close-on-exec
标志; - 对打开文件句柄的引用(指向文件描述表)。
(2)系统级的文件描述表
内核为所有打开的文件维护了一个文件描述表(也称,打开文件表),表中的表项称为打开文件句柄,打开文件句柄包含如下信息:
- 当前的文件偏移量;
- 打开文件时所指定的标志;
- 文件访问模式(如,只读、只写、可读可写);
- 与信号驱动 I/O 相关的设置;
- 对该文件 i-node 的引用(指向 i-node 表)。
(3)文件系统级的 i-node 表
每个文件系统都会为驻留其上的所有文件建立一个 i-node 表,表项包含如下信息:
- 文件类型(如,常规文件、套接字等);
- 文件访问权限;
- 指向该文件所持有的锁的列表的指针;
- 文件属性(如,文件大小、各种时间戳等)。
当通过 dup()
等系统调用复制文件描述符时,新旧两个描述符均指向同一个打开文件句柄。对应进程 A 中的 fd1 和 fd20。
当通过 fork()
等系统调用来创建子进程时,子进程会继承父进程的文件描述符表(即,子进程会拷贝一份),从而父子进程中的相同表项将指向相同的打开文件句柄。对应进程 A 中的 fd2 和进程 B 中的 fd2。
当多个进程通过 open()
调用打开同一个文件时,将有多个打开文件句柄指向同一个 i-node 表项。对应进程 A 中的 fd0 和进程 B 中的 fd3。