一、提问:
- 如何使用C语言访问UNIX系统下的文件?
- 内核是如何记录文件打开的信息的?
- 使用中有什么需要注意的地方?
1.1参考资料
- Linux/UNIX系统编程手册(上册) 第4章
1.2基本知识:
- 所有执行I/O操作的系统调用都以文件描述符,一个非负整数(通常是小整数),来指代打开的文件(类似于代号,别名)。
- 文件描述符用以表示所有类型的已打开的文件,包括管道(pipo),FIFO,socket,终端,设备和普通文件。针对每个进程,文件描述符都自成一套(进程间文件描述符是独立的,互不干扰)。
- 程序中始终默认打开3个常用的文件描述符,使用中建议采用<unistd.h>所定义的POSIX标准名称。
文件描述符 | 用 途 | POSIX名称 | stdio流 |
0 | 标准输入 | STDIN_FILENO | stdin |
1 | 标准输出 | STDOUT_FILENO | stdout |
2 | 标准错误 | STDERR_FILENO | stder |
二、系统调用
2.1文件打开
int fd = open(const char* pathname, int flags, mode_t mode); //文件名,打开方式 权限
open 出错时返回-1。反之,返回一个正数,表示文件描述符 fd,用以在后续函数中调用指代打开的文件。
打开对应文件,并由内核维护一个文件对象。以fd指代这个文件对象。
flags 对位掩码参数,
1、O_RDONLY, O_WRONLY, O_RDWR 可以指定文件打开方式分别为:只读,只写或读写。
2、O_CREAT 表示当文件不存在时,创建文件。
3、O_APPEND 表示总是在文件末尾追加数据。
4、O_NONBLOCK 表示以非阻塞方式打开
mode参数指定由open()调用创建文件的访问权限,如果open()并未创建文件,可以忽略或省略mode参数。
1、新建文件的访问权限还会受到进程的umask值和(可能存在的)父目录的默认控制访问列表的影响。
2、通常为八进制,即 0777 来表示。
- 更多的flags参数——参考资料1 的 p60。
- open()函数错误——参考资料1 的 p63。
int creat(const char* pathname, mode_t mode)
成功返回文件描述符,失败返回-1.
- 早期的UNIX实现中,open()只有两个参数,无法创建新文件。通常使用creat()系统调用来创建并打开新文件。现已不多见。
2.2文件关闭
int close(int fd);
关闭文件描述符,释放对应的文件对象
成功返回0,失败返回-1
if(close(fd) == -1)
perror("close");
上述代码能够捕获的错误:
1、企图关闭一个未打开的文件描述符。
2、企图两次关闭同一个文件描述符。
3、特定文件系统在关闭操作中诊断出的错误条件
2.3文件的读取
#include<unistd.h>
ssize_t read(int fd, void* buf, size_t count);
成功返回读取的字节数,读到EOF(文件结束或网络通信中对端断开)返回0,失败返回-1.
参数buf 指定用来存放输入数据的内存缓冲区地址,缓冲区应至少有count个字节。
参数count 指定最多能读取的字节数。
- ssize_t 数据类型属于有符号的整数类型, size_t 数据类型属于无符号整数类型。
- 一次read()调用所读取的字节数可以小于请求的字节数。默认情况下从终端读取字符,一遇到换行符(\n),read()调用就会结束。
- read()调用在网络通信,阻塞IO情况下,当对端断开时,read返回0 。于此类似的还有 recv函数。
- read()能够从文件中读取任意序列的字节。可能是文本数据,也可能是二进制整数或二进制形式的C语言数据结构。故无法遵循C语言对字符串处理的约定,在字符串尾部追加标识字符串结束的空字符。所以,如果输入缓冲区结尾需要一个表示终止的空字符,必须显示追加;也可以在使用前,通过memset或bzero将缓冲区每个字符设置为'\0' 。
使用案例:
char buffer[MAX_READ + 1];
ssize_t numRead;
numRead = read(STDIN_FILENO, buffer, MAX_READ);
if(-1 == numRead)
{
perror("read");
}
buffer[numRead] = '\0';
printf("The input data was: %s\n", buffer);
2.4 文件的写入
#include<unistd.h>
ssize_t write(int fd, void* buf, size_t count);
成功返回实际写入的字节数,失败返回-1 。
参数fd 指代数据要写入的文件。
参数buf 指定欲从buffer写入文件的数据字节数。
参数count 指定最多能读取的字节数。
- "部分写" , write()调用返回值小于count参数值。对于磁盘文件,原因可能是磁盘已满或者是进程资源对文件大小的限制(RLIMIT_FSIZE)。
- 与printf和scanf有所区别,read和write是将文件读至缓冲区或从缓冲区写入文件,是否会偏移呢?
a.读写过程中文件描述词fd不会改变,始终指向文件。
b. read 过程中虽然是相同的文件描述词,但是会存在一个偏移,不会读取已经读取过的文件内容。也就是说对于文件中存 放“HelloWorld”,调用两次相同的read,第一次会读进缓冲区“Hello”,第二次读进缓冲区"World" 。缓冲区中内容会被覆盖。
c. write过程类似,文件中会产生偏移,而对于缓冲区不会,两次调用write,缓冲区中存放“HelloWorld”, 文件中会 是"HelloHello"。
d.write和read共用一个文件中的偏移。
2.5 改变文件偏移量
#include <unistd.h>
off_t lseek(int fd, off_t offset, int whence);
whence /wens/ adv 从哪里;从何处。
offset参数 表示从whence开始的偏移量,单位为字节数。
whence参数 可以取值为 SEEK_SET,SEEK_CUR,SEEK_END,分别表示文件开头,光标当前位置以及文件尾。
- 文件第一个字节的偏移量为0 。
- SEEK_END指向文件末尾的最后一个字节的下一个字节。
- 文件空洞 (参考资料1 p68) 减少磁盘空间的占用;与mmap联合使用,加快将文件写入文件的速度。
#include<unistd.h>
int ftruncate(int fd, off_t length);
成功返回0, 失败返回-1。
将fd指定文件的大小,改为参数length指定大小。
- fd参数必须表示的是打开的可写入的文件描述词。
- 如果原来文件比length大,则超过部分会被删除。