目前为止,我们一直学习的是如何将代码展示在终端上,今天我们来了解一下文件那些事儿
文章目录
前言
我们在vs上面写的那些代码,往往只能短暂地展示在终端上,它们存在于内存中,通过某种方式来实现相应的功能。那么如何使那些程序数据更加长久地保存下来呢?这时候我们就可以使用文件来保存这些数据了,之后如果我们想要调用这些数据,只要找到相应的文件即可,那么今天就让我们来学习学习文件的一些相关操作吧。
一、什么是文件?
在C语言中,文件通常指的是存储在磁盘(硬盘)上的数据集合。在程序设计中,我们所谈的文件一般有两种:程序文件,数据文件(从文件功能的角度来进行分类的)。
1.1 程序文件
程序文件包括源程序文件(后缀为.c),目标文件(windows环境后缀为.obj),可执行程序(windows 环境后缀为.exe)。
1.2 数据文件
文件的内容不一定是程序,而是程序运行时读写的数据,比如程序运行时需要读写数据的文件,还比如输出内容的文件,而我们今天所要学习的文件就是数据文件。
之前我们输入都是通过键盘来输入给编译器,输出都是通过终端展示在显示器上。今天我们来学习将内容输入/输出到文件上,再进行读写文件。
1.2.1 二进制文件与文本文件
根据数据的组织形式,数据文件又被分为二进制文件和文本文件。
我们知道数据是内存中以二进制的形式进行存储,如果不加转换地输出到外存文件中,就是二进制文件。
如果要求在外存上以ASCII码的形式存储,则需要在存储前转换。以ASCII字符的形式存储的⽂件就是文本文件。
1.3 文件名
世间万物都有名字,文件同样有名字。一个文件要有一个唯一的文件标识,以便于用户识别和引用。文件名包含3部分:文件路径+文件名主干+文件文件后缀
例如:c:\code\test.txt
为了方便起见,文件标识常被称为文件名。
二、文件的打开与关闭
2.1流与标准流
2.1.1 流
在C语言中,"流"(stream)是处理输入和输出操作的一个抽象概念。流提供了一种将数据从一个地方传输到另一个地方的方式,无论是从程序到屏幕、从程序到文件,还是从文件到程序。流可以帮助简化输入和输出操作,使得这些操作可以在不关心数据存储细节的情况下进行。
2.1.2 标准流
我们在没有学习文件之前,为什么也能轻松输入输出各种代码呢?那是因为C语言程序在启动的时候,就默认打开了3个流:
• stdin-标准输入流,在大多数的环境中从键盘输入,scanf函数就是从标准输入流中读取数据。
• stdout-标准输出流,大多数的环境中输出至显示器界面,printf函数就是将信息输出到标准输出 流中。
• stder-标准错误流,大多数环境中输出到显示器界面。
这是默认打开了这三个流,我们使用scanf、printf等函数就可以直接进行输入输出操作的。 stdin、stdout、stderr三个流的类型是: FILE * ,通常称为文件指针。
C语言中,就是通过 FILE* 的⽂件指针来维护流的各种操作的。
2.1.3 文件指针
在缓冲系统中,关键的概念是“文件类型指针”,简称“文件指针”。
每个被使用的文件都在内存中开辟一个相应的文件信息区,用来存放文件的相关信息(如文件的名字,文件状态及文件的当前位置等)。这些信息保存在一个结构体变量中。该结构体类型是由系统
声明的,取名为FILE。(前面一大堆其实你了解一下就好了,后面我们就知道FILE几乎是回回都要敲的)
其实每当打开一个文件的时候,系统会根据文件的情况自动创建一个FILE结构体变量,并填充其中的信息,使用者并不用关心。
一般都是通过一个FILE的指针来维护这个FILE结构的变量,这样使用起来会更加方便。
如上图所示,咱们定义的文件指针变量就像一个引子,巧妙地将咱们的目标文件串在一起了。
2.1.4 文件的打开与关闭
上述代码基本是固定的,每当我们要写文件这类操作的时候,打开文件,关闭文件这两步基本上是一样的,上面的注释是我自己的一个想法。
这是上面两个函数的原型,具体实例我上面代码已经展示了。其中mode是文件打开的方式。
三、文件的读写函数
3.1 文件的顺序读写函数
上面这些函数可以实现对文件的读写操作,现在就让我们来逐一学习这些函数吧。
上面是fgetc()函数的原型,这个函数可以将字符从文件中读出来,然后咱们可以通过文件指针再将相关信息打印出来。
上面是fputc()函数的原型,这个函数是将字符存入文件中
这个页面,没有发生任何报错,那么就将字符存入文件中了,咱们可以到相应的文件中查看
上面是fgets()函数原型,这个函数与上面的fgetc()感觉大同小异,上面那个只能读一个个字符,而这个可以读出一个字符串,我认为这个就是上面那个的plus版本。num 是我们想要读取的字符的个数。
看到上面的输出结果,是不是感觉有点奇怪。咱们不是要读5个字符嘛,可最后为啥只打印出来4个字符呢?
我们通过调试->监视,最后发现除了前面abcd4个字符,还包括一个‘\0',一共凑一起算5个。
上面是fputs()函数的原型,与上面那个一样,是fputc()函数的plus版本。
咱们只要将想要写的字符串放到第一个参数的位置即可。
上面是fscanf()函数的原型,其实这个函数与我们最开始学习的scanf(),我不仅仅说它的样子像,格式也很像。
咱们可以对比的看这两个函数,fscanf()除了第一个参数“流”,其余的都是一样的。
注意:上面两个函数后面参数的 "..." 其实并不是省略号,而是可变参数列表,由于个数不确定,所以我们就用 "..." 来表示
上面是fprintf()函数的原型,与上面一样我们与之前所学习的printf()函数进行一下对比
同样的,上面两个函数大体相同,不同的就是fprintf()函数多了一个文件指针。
上面是fread()函数的原型,上面参数的意思就是:从文件中读取count个size字节的数据,存放到ptr指向的空间中。
上面是fwrite()函数的原型,上面参数的意思就是:将ptr指向空间中count个size大小的数据写入文件中。
上面两个二进制读写函数的参数都是一样的,但是两者的操作却是相反的,我们要记得。由于我们读写都是按照一个规定的字节大小去进行读写,所以我们判断二进制读取(fread)结束的标志就是其返回值要小于实际要读的个数。
介绍完上面表格中的那些函数,我再来介绍另外两个函数,与上面两个函数形成一个辨析对比。
这两个函数与printf,scanf同样只有一个区别,多了前面的一个参数。
sprintf是将格式化的数据写到字符串中,即将格式化数据转化为字符串;
sscanf是从字符串中提取格式化数据,即将字符串转化为格式化数据。
3.2 文件的随机读写函数
此随机并非彼随机,它能读写我们想要位置的文件内容。我们现在将要介绍一些函数能够让我们找到自己想要的内容。
上面是fseek()函数的原型,能够根据文件指针的位置和偏移量来确定文件指针(文件内容的光标)
其实参数中的int origin在C语言中已经规定好了
SEEK_SET是文件的起始位置;SEEK_CUR是文件的当前位置;SEEK_END是文件的结尾位置。
上面是ftell()函数的原型,这个函数就是返回文件指针相对于起始位置的偏移量。
上面是rewind()函数的原型,它能够让文件指针的位置返回到起始位置。
四、文件读取结束的标志
在C语言中,文件读取结束的标志是文件流的**"结束标志"**(End-of-File, EOF)。当使用文件流进行读取操作时,遇到文件末尾会返回一个特定的值,通常是EOF
。你可以使用以下方法检测文件读取是否已结束:
1. fgetc
函数
fgetc
用于逐字符读取文件。当到达文件末尾时,它会返回EOF
。
2. fscanf
和 fgets
函数
对于fscanf
和fgets
函数,当遇到文件末尾时,也会返回EOF
或NULL
。
3. fread 函数
fread判断返回值是否小于实际要读的个数。
4.利用feof函数来判断
牢记:在文件读取过程中,不能用feof函数的返回值直接来判断文件的是否结束。
feof的作用是:当文件读取结束的时候,判断是读取结束的原因是否是:遇到文件尾结束。
返回值
- 非零值(通常为1):表示文件流已到达文件末尾。即,最后一次读取尝试已经到达文件末尾。
- 0:表示文件流尚未到达文件末尾。即,文件流中的当前位置未达到文件的结尾。
重要注意事项
-
feof
与读取操作的关系:feof
函数的返回值仅在读取操作之后才有意义。也就是说,当尝试读取文件时,feof
会返回0
(尚未到达文件末尾),只有在读取尝试失败并且真正到达文件末尾后,feof
才会返回非零值。- 如果在文件末尾之前进行读取操作,例如
fgetc
、fscanf
或fgets
,它们会返回特定的结束值(如EOF
)来指示结束,而feof
会在此后返回非零值。
-
feof
不会自动清除错误标志:feof
只检测是否到达了文件末尾,而不会自动清除文件流的错误标志。如果文件读取过程中发生了错误(例如文件无法打开、读取错误),feof
不会处理这些错误。这种情况下,你应该使用ferror
函数检查是否发生了错误。
五、文件缓冲区
在C语言中,文件缓冲区(file buffer)是一种用于优化文件输入和输出操作的机制。文件缓冲区是由标准库提供的,它在执行文件读写操作时减少了对实际I/O操作的频繁调用,从而提高了程序的效率。
文件缓冲区的工作原理
-
缓冲区的定义和作用:
- 文件缓冲区是一块在内存中分配的区域,用于暂时存储文件数据。在进行文件读写操作时,数据会首先被读入缓冲区或从缓冲区写出,而不是直接从磁盘读取或写入。这样可以减少对磁盘的直接访问,提高效率。
-
缓冲策略:
- 全缓冲(Fully Buffered):数据在缓冲区中被累积到一定量后,才会一次性写入磁盘。这种方式通常用于输出操作。
- 行缓冲(Line Buffered):数据在缓冲区中被积累,直到遇到换行符(newline)或者缓冲区满时才会被写入磁盘。这种方式通常用于终端输出。
- 无缓冲(Unbuffered):数据每次都直接读写,不使用缓冲区。这种方式在标准输入(stdin)和标准输出(stdout)中较少使用,但对于某些要求实时性的操作可能会采用。
我们可以打一个比方:文件缓冲区 就像是图书馆的 书籍预备区。在这个区域中,所有的书籍都被事先放在一个特定的位置,方便读者快速借取。