带与不带缓冲的I/O

最新推荐文章于 2023-04-30 20:37:52 发布

taotaost

最新推荐文章于 2023-04-30 20:37:52 发布

阅读量720

点赞数

分类专栏： linux/UNIX C/C++

C/C++ 同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

linux/UNIX

18 篇文章 0 订阅

订阅专栏

带缓存的文件操作是标准C库的实现。第一次调用带缓存的文件操作函数时，标准库会自动分配内存并且读出一段固定大小的内容存储在缓存中。所以以后每次的读写操作并不是针对硬盘上的文件直接进行的，而是针对内存中的缓存的。何时从硬盘中读取文件或者向硬盘中写入文件有标准库的机制控制。

不带缓存的文件操作通常都是系统提供的系统调用，更加低级，直接从硬盘中读取和写入文件，由于IO瓶颈的原因，速度并不如意，而且原子操作需要程序员自己保证，但使用得当的话效率并不差。另外标准库中的带缓存文件IO 是调用系统提供的不带缓存IO实现的。

“术语不带缓冲指的是每个read和write都调用嗯内核中的一个系统调用。所有的磁盘I/O都要经过内核的块缓冲（也称内核的缓冲区高速缓存），唯一例外的是对原始磁盘设备的I/O。既然read或write的数据都要被内核缓冲，那么术语“不带缓冲的I/O“指的是在用户的进程中对这两个函数不会自动缓冲，每次read或write就要进行一次系统调用。”--------摘自<unix环境编程>

程序中用open和write打开创建并把“hello world“写入文件test.txt，相应用fopen和fwrite操作文件test2.txt。程序执行到open和fopen之后，sleep 15秒，这时用ls查看生成了文件没，这时用open打开的test.txt出现了，但是fopen的test2.txt没有；当程序执行完write和fwrite之后，fopen的test2.txt仍然没有出现(还是用ls查看)，再用cat看test.txt，可以看到 “helloworld”；最后再关闭test.txt和test2.txt，这时test2.txt出现了，并且其内容也是“hello world“。
该例子证明了open和write是不带缓冲的，即程序一执行其io操作也立即执行，不会停留在系统提供的缓冲里，不需等到close操作完才执行。与之相比的fopen和fwrite则是带缓冲的，（一般）要等到fclose操作完后才会执行。

相关的源码示例如下:

＃include <unistd.h>
＃include <iostream>
＃include <fcntl.h>
＃include <string>
＃include <sys/types.h>
＃include <sys/stat.h>

using namespace std;

int main(){

int fd;

FILE *file;

char *s="hello,world\n";

if((fd=open("test.txt",O_WRONLY|O_CREAT,S_IRUSR|S_IWUSR))==-1){

cout<<"Error open file"<<endl;

return -1;

}
if((file=fopen("test2.txt","w"))==NULL){

cout<<"Error Open File."<<endl;

return -1;

}
cout<<"File has been Opened."<<endl;
sleep(15);
if(write(fd,s,strlen(s))<strlen(s)){

cout<<"Write Error"<<endl;

return -1;

}
if(fwrite(s,sizeof(char),strlen(s),file)<strlen(s)){

cout<<"Write Error in 2."<<endl;

return -1;

}
cout<<"After write"<<endl;

sleep(15);
cout<<"After sleep."<<endl;

close(fd);
return 0;
}

先来看看不带缓存的I/O和标准(带缓存的)I/O都有那些
不带缓存的I/O: read,write,open......
标准(带缓存的)I/O: fgets,fread,fwrite.....

这里使用两个对应的函数进行比较：
ssize_t write(int filedes, const void *buff, size_t nbytes)
size_t fwrite(const void *ptr, size_t size, size_t nobj, FILE *fp)

上面的buff和ptr都是指应用程序自己使用的buffer，实际上当需要对文件进行写操作时，都会先写到内核所设的缓冲存储器。如果该缓存未满，则并不将其排入输出队列，直到缓存写满或者内核再次需要重新使用此缓存时才将其排入磁盘I/O输入队列，再进行实际的I/O操作，也就是此时才把数据真正写到磁盘，这种技术叫延迟写。

如果我们直接用非缓存I/O对内核的缓冲区进行读写，会产生许多管理不善而造成的麻烦（如一次性写入过多，或多次系统调用导致的效率低下）。标准(带缓存的)I/O为我们解决了这些问题，它处理很多细节，如缓冲区分配，以优化长度执行I/O等，更便于我们使用。

由于标准(带缓存的)I/O在系统调用的上一层多加了一个缓冲区，也因此引入了流的概念，在UNIX/Linux下表示为FILE*（并不限于UNIX/Linux，ANSI C都有FILE的概念），FILE实际上包含了为管理流所需要的所有信息：实际I/O的文件描述符，指向流缓存的指针（标准I/O缓存，由malloc分配，又称为用户态进程空间的缓存，区别于内核所设的缓存），缓存长度，当前在缓存中的字节数，出错标志等。

因此可知，不带缓存的I/O对文件描述符操作，带缓存的标准I/O是针对流的。

标准I/O对每个I/O流自动进行缓存管理（标准I/O函数通常调用malloc来分配缓存）。它提供了三种类型的缓存：
1) 全缓存。当填满标准I/O缓存后才执行I/O操作。磁盘上的文件通常是全缓存的。
2) 行缓存。当输入输出遇到新行符或缓存满时，才由标准I/O库执行实际I/O操作。stdin、stdout通常是行缓存的。
3) 无缓存。相当于read、write了。stderr通常是无缓存的，因为它必须尽快输出。

一般而言，由系统选择缓存的长度，并自动分配。标准I/O库在关闭流的时候自动释放缓存。另外，也可以使用函数fflush()将流所有未写的数据送入（刷新）到内核（内核缓冲区），fsync()将所有内核缓冲区的数据写到文件（磁盘）。

在标准I/O库中也有引入缓存管理而带来的缺点--效率问题。例如当使用每次一行函数fgets和fputs时，通常需要复制两次数据：一次是在内核和标准I/O缓存之间（当调用read和write时），第二次是在标准I/O缓存（通常系统分配和管理）和用户程序中的行缓存（fgets的参数就需要一个用户行缓存指针）之间。