文件IO与标准IO

一、引言

块(block)是文件系统中最小存储单元的抽象。在内核中所有的文件系统操作都是基于块来执行的。所有的IO操作都是在其块大小以及其整数倍上进行的。

内核和硬件之间的交互单元是块。其大小一般是512字节,1024子节点,2048字节或4096字节。

额外的系统调用所带来的开销会导致操作性能极具下降,假设要读取1024个字节,如果每读取一个字节,需执行调用1024次,而如果一个读取1024字节的块,只需要读取一次。对于前一种提升其性能的途径是"用户缓冲I/O"。通过缓冲IO,从用户角度,读写数据并没有发生变化,而实际上,只有数据量大小达到文件系统块大小整数倍时,才会执行真正的IO操作。

缓存有什么好处呢?
可以把程序向输出流写数据比做从北京运送烤鸭到上海。如果没有缓冲区,那么每执行一次write(int b)方法,仅仅把一只烤鸭从北京运到上海,如果由一万只烤鸭,就要运送一万次,这样的运送效率显然很低。为了减少运送次数,可以先把一批烤鸭装到一个集装箱中,这样就能成批的运送烤鸭,这个集装箱就是缓冲区。
在默认的情况下,只有当这个集装箱装满后,才会把这箱烤鸭运到上海(全缓存),而flush方法表示不管集装箱是否装满,都执行一次运货操作。
为了保证输入流和输出流被及时关闭,最好把关闭流的操作放到finally代码块中。

C标准库提供了标准IO库(简称stdio),它实现了跨平台的用户缓冲解决方案。

二、标准I/O与文件I/O的定义

2.1、文件I/O:

文件I/O称之为不带缓存的IO(unbuffered I/O)。不带缓存指的是每个read,write都调用内核中的一个系统调用。也就是一般所说的低级I/O——操作系统提供的基本IO服务,与os绑定,特定于unix平台。

2.2、标准I/O:

标准I/O是ANSI C建立的一个标准I/O模型,是一个标准函数包和stdio.h头中的定义,具有一定的可移植性。标准IO库处理很多细节。例如缓存分配,以优化长度执行IO等。
标准的IO提供了三种类型的缓存:

  • 全缓存:当填满标准IO缓存后才进行实际的IO操作。
  • 行缓存:当输入或输出中遇到新行符时,标准IO库执行IO操作。
  • 不带缓存:stderr就是了。

2.3、二者区别

两者一个显著的不同点在于,标准I/O默认采用了缓冲机制,比如调用fopen函数,不仅打开一个文件,而且建立了一个缓冲区(读写模式下将建立两个缓冲区),还创建了一个包含文件和缓冲区相关数据的数据结构(FILE *)。低级I/O一般没有采用缓冲,需要自己创建缓冲区,不过其实在unix系统中,都是有使用称为内核缓冲的技术用于提高效率,读写调用是在内核缓冲区和进程缓冲区之间进行的数据复制。使用标准IO就不需要自己维护缓冲区了,标准IO库会根据stdin/stdout来选择缓冲类型,也就是说当你使用标准IO的时候,要清楚它的stdin/stdou是什么类型以及其默认的缓冲模式,如果不合适,你需要用setvbuf先设置,再使用,例如协同进程的标准输入和输出的类型都是管道,所以其默认的缓冲类型是全缓冲的,如果要使用标准IO,就需要现设置行缓冲。对于文件IO,只要你自己能维护好缓冲区,完全可以不用标准IO。
  
文件I/O:所有I/O函数都是围绕文件描述符进行的。当打开一个文件时,即返回一个文件描述符,后续的I/O操作也都使用该文件描述符进行操作。可以访问不同类型的文件如普通文件、设备文件和管道文件等。
标准I/O:所有操作都是围绕流(stream)进行的。当用标准I/O库打开或创建一个文件时,即将一个流和一个文件相关联。通常只用来访问普通文件。

2.4、函数:

标准I/O文件I/O(低级)
打开fopen,freopen,fdopenopen
关闭fcloseclose
getc,fgetc,getcharfgets,gets,freadread
putc,fputc,putcharfputs,puts,fwritewrite

2.4.1、fopen与open

标准I/O使用fopen函数打开一个文件:

FILE* fp=fopen(const char* path,const char *mode)

其中path是文件名,mode用于指定文件打开的模式的字符串,比如"r",“w”,“w+”,"a"等等,可以加上字母b用以指定以二进制模式打开(对于 *nix系统,只有一种文件类型,因此没有区别),如果成功打开,返回一个FILE文件指针,如果失败返回NULL,这里的文件指针并不是指向实际的文 件,而是一个关于文件信息的数据包,其中包括文件使用的缓冲区信息。
  
unix系统使用open函数用于打开一个文件:

int fd=open(char *name,int how);

与fopen类似,name表示文件名字符串,而how指定打开的模式:O_RDONLY(只读),O_WRONLY(只写),O_RDWR (可读可写),还有其他模式请man 2 open。成功返回一个正整数称为文件描述符,这与标准I/O显著不同,失败的话返回-1,与标准I/O返回NULL也是不同的。

2.4.2、fclose与close

与打开文件相对的,标准I/O使用fclose关闭文件,将文件指针传入即可,如果成功关闭,返回0,否则返回EOF(EOF,为End Of File的缩写,通常在文本的最后存在此字符表示资料结束。),比如:

 if(fclose(fp)!=0) 
	  printf("Error in closing file");

而unix使用close用于关闭open打开的文件,与fclose类似,只不过当错误发生时返回的是-1,而不是EOF,成功关闭同样是返回0。C语言用error code来进行错误处理的传统做法。

2.4.3、读文件:getc,fscanf,fgets和read

标准I/O中进行文件读取可以使用getc,一个字符一个字符的读取,也可以使用gets(读取标准io读入的)、fgets以字符串单位进行读取(读到遇到的第一个换行字符的后面),gets(接受一个参数,文件指针)不判断目标数组是否能够容纳读入的字符,可能导致存储溢出(不建议使用),而fgets使用三个参数char * fgets(char *s, int size, FILE *stream); 第一个参数和gets一样,用于存储输入的地址,第二个参数为整数,表示输入字符串的最大长度,最后一个参数就是文件指针,指向要读取的文件。最后是fscanf,与scanf类似,只不过增加了一个参数用于指定操作的文件,比如fscanf(fp,"%s",words)
  unix系统中使用read函数用于读取open函数打开的文件,函数原型如下:

ssize_t numread=read(int fd,void *buf,size_t qty);

其中fd就是open返回的文件描述符,buf用于存储数据的目的缓冲区,而qty指定要读取的字节数。如果成功读取,就返回读取的字节数目(小于等于qty)。

判断文件结尾:
  如果尝试读取达到文件结尾,标准IO的getc会返回特殊值EOF,而fgets碰到EOF会返回NULL,而对于unix的read函数,情况有所不同。read读取qty指定的字节数,最终读取的数据可能没有你所要求的那么多(qty),而当读到结尾再要读的话,read函数将返回0.

2.4.4、写文件:putc,fputs,fprintf和write

与读文件相对应的,标准C语言I/O使用putc写入字符,比如:putc(ch,fp);第一个参数是字符,第二个是文件指针。而fputs与此类似:fputs(buf,fp);仅仅是第一个参数换成了字符串地址。而fprintf与printf类似,增加了一个参数用于指定写入的文件,比如:

fprintf(stdout,"Hello %s.\n","dennis");

切记fscanf和fprintf将FILE指针作为第一个参数,而putc,fputs则是作为第二个参数。
  在unix系统中提供write函数用于写入文件,原型与read类似:

ssize_t result=write(int fd,void *buf ,size_t amt);

fd是文件描述符,buf是将要写入的内存数据,amt是要写的字节数。如果写入成功返回写入的字节数,通过result与amt的比较可以判断是否写入正常,如果写入失败返回-1。

2.4.5、随机存取:fseek()、ftell()和lseek()

标准I/O使用fseek和ftell用于文件的随机存取,先看看fseek函数原型:

int fseek(FILE *stream, long offset, int whence);

第一个参数是文件指针,第二个参数是一个long类型的偏移量(offset),表示从起始点开始移动的距离。第三个参数就是用于指定起始点的模式,stdio.h指定了下列模式常量:

SEEK_SET 文件开始处
SEEK_CUR 当前位置
SEEK_END 文件结尾处

看几个调用例子:

fseek(fp,0,SEEK_SET); //找到文件的开始处
fseek(fp,0,SEEK_END); //定位到文件结尾处
fseek(fp,2,SEEK_CUR); //文件当前位置向前移动2个字节数

而ftell函数用于返回文件的当前位置,返回类型是一个long类型,比如下面的调用:
    fseek(fp,0L,SEEK_END);//定位到结尾
    long last=ftell(fp); //返回当前位置
那么此时的last就是文件指针fp指向的文件的字节数。
与标准I/O类似,*nix系统提供了lseek来完成fseek的功能,原型如下:

off_t lseek(int fildes, off_t offset, int whence);

fildes是文件描述符,而offset也是偏移量,whence同样是指定起始点模式,唯一的不同是lseek有返回值,如果成功就 返回指针变化前的位置,否则返回-1。whence的取值与fseek相同:SEEK_SET,SEEK_CUR,SEEK_END,但也可以用整数 0,1,2相应代替。

fseek和ftell == lseek;

三、read/write和fread/fwrite 的区别及用法

当我们在linux系统下写程序的时候,经常会读文件或者写文件,既然要操作文件,就会用文件操作函数,其中涉及读写的不乏有read/write或者fread/fwrite,但是我们应该选择哪一种呢,少安毋躁,在决定选用哪一种之前,先让我们看看它们有哪些不同点,然后再做决定。

3.1、不同点:

  • fread是带缓冲的,read不带缓冲.

  • fopen是标准c里定义的,open是POSIX中定义的.

  • fread可以读一个结构.read在linux/unix中读二进制与普通文件没有区别.

  • fopen不能指定要创建文件的权限.open可以指定权限.

  • fopen返回指针,open返回文件描述符(整数).

  • linux/unix中任何设备都是文件,都可以用open,read.

3.2、read/write与fread/fwrite的缓冲解释

read/write调用一次即执行一次系统调用。可用于所有文件,包括设备/管道。
fread/fwrite会有缓冲,也就是有预读和延迟写,以减少系统调用次数。适用于常规文件。
例如,read(100)就是实际从文件中读100字节,而fread(100)则可能读1000字节,然后返回100个,下次再读就直接用了。write类似。

fread就是通过read来实现的,fread是C语言的库,而read是系统调用
但是差别在read每次读的数据是调用者要求的大小,比如调用要求读取10个字节数据,read就会读10个字节数据到数组中,而fread不一样,为了加快读的速度,fread每次都会读比要求更多的数据,然后放到缓冲区中,这样下次再读数据只需要到缓冲区中去取就可以了。

fread每次会读取一个缓冲区大小的数据,32位下一般是4096个字节,相当于调用了read(fd,buf,4096)

比如需要读取512个字节数据,分4次读取,调用read就是:
for(i=0; i<4; ++i)
read(fd,buf,128)
一共有4次系统调用

而fread一次就读取了4096字节放到缓冲区了,所以省事了。

3.3、实例:

如果文件的大小是8k。

你如果用read/write,且只分配了2k的缓存,则要将此文件读出需要做4次系统调用来实际从磁盘上读出。

如果你用fread/fwrite,则系统自动分配缓存,则读出此文件只要一次系统调用从磁盘上读出。

也就是用read/write要读4次磁盘,而用fread/fwrite则只要读1次磁盘。效率比read/write要高4倍。

3.4、使用场景:

如果程序对内存有限制,则用read/write比较好。

都用fread 和fwrite,它自动分配缓存,速度会很快,比自己来做要简单。
如果要处理一些特殊的描述符,用read 和write,如套接口,管道之类的

系统调用write的效率取决于你buf的大小和你要写入的总数量,如果buf太小,你进入内核空间的次数大增,效率就低下。而fwrite会替你做缓存,减少了实际出现的系统调用,所以效率比较高。

如果只调用一次(可能吗?),这俩差不多,严格来说write要快一点点(因为实际上fwrite最后还是用了write做真正的写入文件系统工作),但是这其中的差别无所谓。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值