文件IO与标准IO

最新推荐文章于 2023-06-19 18:21:11 发布

Mr_慕白

最新推荐文章于 2023-06-19 18:21:11 发布

阅读量1.1k

点赞数 1

分类专栏： unix环境高级编程

本文链接：https://blog.csdn.net/weixin_38932035/article/details/105264898

版权

unix环境高级编程专栏收录该内容

20 篇文章 0 订阅

订阅专栏

一、引言

块(block)是文件系统中最小存储单元的抽象。在内核中所有的文件系统操作都是基于块来执行的。所有的IO操作都是在其块大小以及其整数倍上进行的。

内核和硬件之间的交互单元是块。其大小一般是512字节，1024子节点，2048字节或4096字节。

额外的系统调用所带来的开销会导致操作性能极具下降，假设要读取1024个字节，如果每读取一个字节，需执行调用1024次，而如果一个读取1024字节的块，只需要读取一次。对于前一种提升其性能的途径是"用户缓冲I/O"。通过缓冲IO，从用户角度，读写数据并没有发生变化，而实际上，只有数据量大小达到文件系统块大小整数倍时，才会执行真正的IO操作。

缓存有什么好处呢？
可以把程序向输出流写数据比做从北京运送烤鸭到上海。如果没有缓冲区，那么每执行一次write（int b）方法，仅仅把一只烤鸭从北京运到上海，如果由一万只烤鸭，就要运送一万次，这样的运送效率显然很低。为了减少运送次数，可以先把一批烤鸭装到一个集装箱中，这样就能成批的运送烤鸭，这个集装箱就是缓冲区。
在默认的情况下，只有当这个集装箱装满后，才会把这箱烤鸭运到上海（全缓存），而flush方法表示不管集装箱是否装满，都执行一次运货操作。
为了保证输入流和输出流被及时关闭，最好把关闭流的操作放到finally代码块中。

C标准库提供了标准IO库(简称stdio)，它实现了跨平台的用户缓冲解决方案。

二、标准I/O与文件I/O的定义

2.1、文件I/O：

文件I/O称之为不带缓存的IO（unbuffered I/O)。不带缓存指的是每个read，write都调用内核中的一个系统调用。也就是一般所说的低级I/O——操作系统提供的基本IO服务，与os绑定，特定于unix平台。

2.2、标准I/O：

标准I/O是ANSI C建立的一个标准I/O模型，是一个标准函数包和stdio.h头中的定义，具有一定的可移植性。标准IO库处理很多细节。例如缓存分配，以优化长度执行IO等。
标准的IO提供了三种类型的缓存：

全缓存：当填满标准IO缓存后才进行实际的IO操作。
行缓存：当输入或输出中遇到新行符时，标准IO库执行IO操作。
不带缓存：stderr就是了。

2.3、二者区别

两者一个显著的不同点在于，标准I/O默认采用了缓冲机制，比如调用fopen函数，不仅打开一个文件，而且建立了一个缓冲区（读写模式下将建立两个缓冲区），还创建了一个包含文件和缓冲区相关数据的数据结构(FILE *)。低级I/O一般没有采用缓冲，需要自己创建缓冲区，不过其实在unix系统中，都是有使用称为内核缓冲的技术用于提高效率，读写调用是在内核缓冲区和进程缓冲区之间进行的数据复制。使用标准IO就不需要自己维护缓冲区了，标准IO库会根据stdin/stdout来选择缓冲类型，也就是说当你使用标准IO的时候，要清楚它的stdin/stdou是什么类型以及其默认的缓冲模式，如果不合适，你需要用setvbuf先设置，再使用，例如协同进程的标准输入和输出的类型都是管道，所以其默认的缓冲类型是全缓冲的，如果要使用标准IO，就需要现设置行缓冲。对于文件IO，只要你自己能维护好缓冲区，完全可以不用标准IO。
　　
文件I/O：所有I/O函数都是围绕文件描述符进行的。当打开一个文件时，即返回一个文件描述符，后续的I/O操作也都使用该文件描述符进行操作。可以访问不同类型的文件如普通文件、设备文件和管道文件等。
标准I/O：所有操作都是围绕流(stream)进行的。当用标准I/O库打开或创建一个文件时，即将一个流和一个文件相关联。通常只用来访问普通文件。

2.4、函数：

	标准I/O	文件I/O（低级）
打开	fopen,freopen,fdopen	open
关闭	fclose	close
读	getc,fgetc,getcharfgets,gets,fread	read
写	putc,fputc,putcharfputs,puts,fwrite	write

2.4.1、fopen与open

标准I/O使用fopen函数打开一个文件：

FILE* fp=fopen(const char* path,const char *mode)

其中path是文件名，mode用于指定文件打开的模式的字符串，比如"r",“w”,“w+”,"a"等等，可以加上字母b用以指定以二进制模式打开（对于 *nix系统，只有一种文件类型，因此没有区别）,如果成功打开，返回一个FILE文件指针，如果失败返回NULL,这里的文件指针并不是指向实际的文件，而是一个关于文件信息的数据包，其中包括文件使用的缓冲区信息。
　　
unix系统使用open函数用于打开一个文件：

int fd=open(char *name,int how);

与fopen类似，name表示文件名字符串，而how指定打开的模式：O_RDONLY(只读),O_WRONLY(只写）,O_RDWR （可读可写),还有其他模式请man 2 open。成功返回一个正整数称为文件描述符，这与标准I/O显著不同，失败的话返回-1，与标准I/O返回NULL也是不同的。

2.4.2、fclose与close

与打开文件相对的，标准I/O使用fclose关闭文件，将文件指针传入即可，如果成功关闭，返回0，否则返回EOF(EOF，为End Of File的缩写，通常在文本的最后存在此字符表示资料结束。)，比如：

　if(fclose(fp)!=0) 
	　　printf("Error in closing file");

而unix使用close用于关闭open打开的文件，与fclose类似，只不过当错误发生时返回的是-1，而不是EOF，成功关闭同样是返回0。C语言用error code来进行错误处理的传统做法。

2.4.3、读文件：getc,fscanf,fgets和read

标准I/O中进行文件读取可以使用getc，一个字符一个字符的读取，也可以使用gets（读取标准io读入的）、fgets以字符串单位进行读取（读到遇到的第一个换行字符的后面），gets（接受一个参数，文件指针）不判断目标数组是否能够容纳读入的字符，可能导致存储溢出(不建议使用），而fgets使用三个参数char * fgets(char *s, int size, FILE *stream); 第一个参数和gets一样，用于存储输入的地址，第二个参数为整数，表示输入字符串的最大长度，最后一个参数就是文件指针，指向要读取的文件。最后是fscanf，与scanf类似，只不过增加了一个参数用于指定操作的文件，比如fscanf(fp,"%s",words)
　　unix系统中使用read函数用于读取open函数打开的文件，函数原型如下：

ssize_t numread=read(int fd,void *buf,size_t qty);

其中fd就是open返回的文件描述符，buf用于存储数据的目的缓冲区，而qty指定要读取的字节数。如果成功读取，就返回读取的字节数目（小于等于qty）。

判断文件结尾：
　　如果尝试读取达到文件结尾，标准IO的getc会返回特殊值EOF，而fgets碰到EOF会返回NULL,而对于unix的read函数，情况有所不同。read读取qty指定的字节数，最终读取的数据可能没有你所要求的那么多（qty），而当读到结尾再要读的话，read函数将返回0.

2.4.4、写文件：putc,fputs,fprintf和write

与读文件相对应的，标准C语言I/O使用putc写入字符，比如：putc(ch,fp);第一个参数是字符，第二个是文件指针。而fputs与此类似：fputs(buf,fp);仅仅是第一个参数换成了字符串地址。而fprintf与printf类似，增加了一个参数用于指定写入的文件，比如：

fprintf(stdout,"Hello %s.\n","dennis");

切记fscanf和fprintf将FILE指针作为第一个参数，而putc,fputs则是作为第二个参数。
　　在unix系统中提供write函数用于写入文件，原型与read类似：

ssize_t result=write(int fd,void *buf ,size_t amt);

fd是文件描述符，buf是将要写入的内存数据，amt是要写的字节数。如果写入成功返回写入的字节数，通过result与amt的比较可以判断是否写入正常，如果写入失败返回-1。

2.4.5、随机存取：fseek()、ftell()和lseek()

标准I/O使用fseek和ftell用于文件的随机存取，先看看fseek函数原型：

int fseek(FILE *stream, long offset, int whence);

第一个参数是文件指针，第二个参数是一个long类型的偏移量（offset），表示从起始点开始移动的距离。第三个参数就是用于指定起始点的模式，stdio.h指定了下列模式常量：

SEEK_SET 文件开始处
SEEK_CUR 当前位置
SEEK_END 文件结尾处

看几个调用例子：

fseek(fp,0,SEEK_SET); //找到文件的开始处
fseek(fp,0,SEEK_END); //定位到文件结尾处
fseek(fp,2,SEEK_CUR); //文件当前位置向前移动2个字节数

而ftell函数用于返回文件的当前位置，返回类型是一个long类型，比如下面的调用：
　　　　fseek(fp,0L,SEEK_END);//定位到结尾
　　　　long last=ftell(fp); //返回当前位置
那么此时的last就是文件指针fp指向的文件的字节数。
与标准I/O类似，*nix系统提供了lseek来完成fseek的功能，原型如下：

off_t lseek(int fildes, off_t offset, int whence);

fildes是文件描述符，而offset也是偏移量，whence同样是指定起始点模式，唯一的不同是lseek有返回值，如果成功就返回指针变化前的位置，否则返回-1。whence的取值与fseek相同：SEEK_SET,SEEK_CUR,SEEK_END，但也可以用整数 0,1,2相应代替。

fseek和ftell == lseek;

三、read/write和fread/fwrite 的区别及用法

当我们在linux系统下写程序的时候，经常会读文件或者写文件，既然要操作文件，就会用文件操作函数，其中涉及读写的不乏有read/write或者fread/fwrite，但是我们应该选择哪一种呢，少安毋躁，在决定选用哪一种之前，先让我们看看它们有哪些不同点，然后再做决定。

3.1、不同点：

fread是带缓冲的,read不带缓冲.
fopen是标准c里定义的,open是POSIX中定义的.
fread可以读一个结构.read在linux/unix中读二进制与普通文件没有区别.
fopen不能指定要创建文件的权限.open可以指定权限.
fopen返回指针,open返回文件描述符(整数).
linux/unix中任何设备都是文件,都可以用open,read.

3.2、read/write与fread/fwrite的缓冲解释

read/write调用一次即执行一次系统调用。可用于所有文件，包括设备/管道。
fread/fwrite会有缓冲，也就是有预读和延迟写，以减少系统调用次数。适用于常规文件。
例如，read(100)就是实际从文件中读100字节，而fread(100)则可能读1000字节，然后返回100个，下次再读就直接用了。write类似。

fread就是通过read来实现的，fread是C语言的库，而read是系统调用
但是差别在read每次读的数据是调用者要求的大小，比如调用要求读取10个字节数据，read就会读10个字节数据到数组中，而fread不一样，为了加快读的速度，fread每次都会读比要求更多的数据，然后放到缓冲区中，这样下次再读数据只需要到缓冲区中去取就可以了。

fread每次会读取一个缓冲区大小的数据，32位下一般是4096个字节，相当于调用了read(fd,buf,4096)

比如需要读取512个字节数据，分4次读取，调用read就是：
for(i=0; i<4; ++i)
read(fd,buf,128)
一共有4次系统调用

而fread一次就读取了4096字节放到缓冲区了，所以省事了。

3.3、实例：

如果文件的大小是8k。

你如果用read/write，且只分配了2k的缓存，则要将此文件读出需要做4次系统调用来实际从磁盘上读出。

如果你用fread/fwrite，则系统自动分配缓存，则读出此文件只要一次系统调用从磁盘上读出。

也就是用read/write要读4次磁盘，而用fread/fwrite则只要读1次磁盘。效率比read/write要高4倍。

3.4、使用场景：

如果程序对内存有限制，则用read/write比较好。

都用fread 和fwrite,它自动分配缓存,速度会很快,比自己来做要简单。
如果要处理一些特殊的描述符,用read 和write,如套接口,管道之类的

系统调用write的效率取决于你buf的大小和你要写入的总数量，如果buf太小，你进入内核空间的次数大增，效率就低下。而fwrite会替你做缓存，减少了实际出现的系统调用，所以效率比较高。

如果只调用一次(可能吗?)，这俩差不多，严格来说write要快一点点(因为实际上fwrite最后还是用了write做真正的写入文件系统工作)，但是这其中的差别无所谓。

Mr_慕白

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
文件IO与标准IO

一、引言块(block)是文件系统中最小存储单元的抽象。在内核中所有的文件系统操作都是基于块来执行的。所有的IO操作都是在其块大小以及其整数倍上进行的。内核和硬件之间的交互单元是块。其大小一般是512字节，1024子节点，2048字节或4096字节。额外的系统调用所带来的开销会导致操作性能极具下降，假设要读取1024个字节，如果每读取一个字节，需执行调用1024次，而如果一个读取1024字节...
复制链接

扫一扫

专栏目录