Linux：基础IO

三目的有声博客

已于 2024-08-14 08:43:55 修改

阅读量1.7k

点赞数 60

文章标签： linux 算法 c++ c语言

于 2024-08-13 04:56:33 首次发布

本文链接：https://blog.csdn.net/MaoRuofeng/article/details/141139424

版权

1. stdin & stdout & stderr

1. stdin & stdout & stderr

a: C语言默认会打开三个输入输出流，分别是stdin, stdout, stderr

stdin：标准输入流，通常用于从键盘接收输入，其类型是 FILE*。
stdout：标准输出流，通常用于向屏幕输出文本，其类型也是 FILE*。
stderr：标准错误流，用于输出错误信息，同样也是 FILE* 类型。

b: 仔细观察发现，这三个流的类型都是FILE*, fopen返回值类型，文件指针

FILE* fopen(const char *filename, const char *mode);

第一个参数 filename 是要打开的文件的名称。
第二个参数 mode 指定文件打开的模式，如 "r" 表示只读，"w" 表示写入并覆盖现有内容等。

fopen 成功时返回一个 FILE* 类型的非空指针，失败时返回 NULL。这里要注意的是，虽然 stdin、stdout 和 stderr 的类型都是 FILE*，但它们不是通过 fopen 函数获得的，而是 C 语言运行时环境自动提供的。

文件指针 FILE* 是 C 语言标准 I/O 库中用于指向文件结构的指针，该结构包含了进行文件操作所需的所有信息，如文件位置指示器、文件状态标志等。当你使用 fopen 打开一个文件时，返回的 FILE* 指针指向这样一个结构，它允许你通过标准 I/O 函数（如 fread、fwrite、fprintf 等）对文件进行操作。

2. 系统文件I/O

操作文件，除了上述C接口，我们还可以采用系统接口来进行文件访问。

1. 接口介绍

这些操作都很简单，需要的时候在命令行 man 一下！

open

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>

int open(const char *pathname, int flags);
int open(const char *pathname, int flags, mode_t mode);

pathname: 要打开或创建的目标文件
flags: 打开文件时，可以传入多个参数选项，用下面的一个或者多个常量进行“或”运算，构成flags。

参数:
    O_RDONLY: 只读打开
    O_WRONLY: 只写打开
    O_RDWR : 读，写打开这三个常量，必须指定一个且只能指定一个
    O_CREAT : 若文件不存在，则创建它。需要使用mode选项，来指明新文件的访问权限
    O_APPEND: 追加写

返回值：
    成功：新打开的文件描述符
    失败：-1

write

ssize_t write(int fd, const void *buf, size_t count); 

参数：
    int fd：文件描述符，这是一个整数，代表要写入数据的文件或其他 I/O 设备。对于标准输入、输出和错误流，文件描述符分别为 0（stdin）、1（stdout）和 2（stderr）。
    const void *buf：指向要写入的数据缓冲区的指针。buf 参数是一个 const void* 类型的指针，意味着它可以指向任何类型的数据。数据的实际类型应与 write 被调用的上下文匹配。
    size_t count：要写入的字节数。count 参数指定了从 buf 指向的缓冲区中写入多少字节的数据到文件描述符 fd。

返回值：
    write 函数的返回值表示成功写入的字节数。在成功的情况下，返回值应该等于 count。如果发生错误，函数返回 -1 并设置 errno 以指示错误类型。

read

ssize_t read(int fd, void *buf, size_t count); 

参数:
    int fd：文件描述符，这是一个表示要读取数据的文件、套接字或其他 I/O 设备的整数。例如，标准输入（stdin）的文件描述符是 0。
    void *buf：指向一个缓冲区的指针，用于存储从文件描述符 fd 读取的数据。buf 参数是一个 void* 类型的指针，这意味着它可以指向任何类型的数据缓冲区。调用者应确保提供足够大的缓冲区来存储预期数量的数据。
    size_t count：要读取的字节数。count 参数指定了从文件描述符 fd 读取的最大字节数。

返回值：
    read 函数的返回值表示成功读取的字节数，如果返回值为 0，则表示到达了文件末尾（EOF）。如果发生错误，函数返回 -1 并设置全局变量 errno 以指示错误类型。

close

#include <unistd.h>

int close(int fd);

功能说明：

close 函数用于关闭一个由 fd 参数指定的文件描述符。文件描述符通常与打开的文件、套接字或其他 I/O 设备相关联。

参数：
    int fd：要关闭的文件描述符的整数标识符。

返回值：
    成功时，返回 0。
    失败时，返回 -1，并设置 errno 以指示错误。

lseek

#include <sys/types.h>
#include <unistd.h>

off_t lseek(int fd, off_t offset, int whence);

功能说明：
    lseek 函数用于重新定位指定文件描述符 fd 的文件读取/写入偏移量。

参数：
    int fd：文件描述符，是一个整数，表示要操作的文件或 I/O 设备。
    off_t offset：要设置的偏移量。这个值的含义取决于 whence 参数。
    int whence：指定 offset 参数如何被解释：
    SEEK_SET：文件开头，offset 是文件开头的绝对偏移量。
    SEEK_CUR：当前位置，offset 是相对于当前文件位置的偏移量。
    SEEK_END：文件末尾，offset 是相对于文件末尾的偏移量，通常用于设置文件指针到文件末尾之后。

返回值：
    成功时，lseek 返回新的文件偏移量，即从文件开头到当前位置的字节数。
    失败时，返回 (off_t)-1，并且 errno 被设置为表示错误原因的值。

错误代码：
    EBADF：指定的文件描述符 fd 无效。
    EINVAL：whence 参数的值无效。
    EOVERFLOW：新的文件偏移量超出了 off_t 类型可以表示的范围

描述：
    lseek 函数允许程序修改文件的内部偏移量，该偏移量决定了下一次读取或写入操作的起始点。
    如果 lseek 成功执行，文件的当前偏移量将被更新为指定的新位置。
    对于某些类型的文件（如某些管道或设备文件），lseek 可能不会产生预期的效果或可能失败。

注意：
    lseek 通常用于基于文件偏移量进行操作的文件 I/O 模式。
    对于不支持随机访问的 I/O 设备，lseek 可能无法改变偏移量，或者可能总是返回 0。

2. open函数返回值

先来认识一下两个概念: 系统调用 和 库函数。上面的 fopen fclose fread fwrite 都是C标准库当中的函数，我们称之为库函数（libc）。而， open close read write lseek 都属于系统提供的接口，称之为系统调用接口。

3. 文件描述符fd

文件描述符就是Unix和类Unix操作系统中用于表示打开文件或其他I/O资源的整数。

0 & 1 & 2

Linux进程默认情况下会有3个缺省打开的文件描述符：

分别是标准输入0， 标准输出1， 标准错误2.

0,1,2对应的物理设备一般是：键盘，显示器，显示器

所以输入输出还可以采用如下方式：

文件描述符就是从0开始的小整数。当我们打开文件时，操作系统在内存中要创建相应的数据结构来描述目标文件。于是就有了file结构体。表示一个已经打开的文件对象。而进程执行open系统调用，所以必须让进程和文件关联起来。每个进程都有一个指针*files, 指向一张表files_struct,该表最重要的部分就是包涵一个指针数组，每个元素都是一个指向打开文件的指针！所以，本质上，文件描述符就是该数组的下标。所以，只要拿着文件描述符，就可以找到对应的文件！！！

文件描述符的分配规则

文件描述符的分配规则：在files_struct数组当中，找到当前没有被使用的最小的一个下标，作为新的文件描述符。

重回定向

有了对 文件描述符的分配规则的认识我们来看一段代码：

#include <stdio.h>
#include<unistd.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <stdlib.h>
int main()
{
	::close(1);
	int fd = open("./myfile.txt", O_WRONLY | O_CREAT, 00644);
	if (fd < 0)
	{
		perror("open");
		return 1;
	}
	printf("fd: %d\n", fd);
	fflush(stdout);
	::close(fd);
	exit(0);
}

此时，我们发现，本来应该输出到显示器上的内容，输出到了文件 myfile 当中。这种现象叫做输出重定向。

常见重定向：

`1：>`（大于符号） - 强制输出重定向	将命令的输出重定向到一个文件中。如果该文件已存在，其原有内容将被覆盖。例如：`ls > file.txt` 将 `ls` 命令的输出保存到 `file.txt` 文件中。
`2：>>`（双大于符号） - 追加输出重定向	将命令的输出追加到现有文件的末尾，而不是覆盖文件。例如：`echo "Hello" >> file.txt` 会在 `file.txt` 文件的末尾追加字符串 "Hello"。
`3：<`（小于符号） - 输入重定向	将文件内容作为命令的输入。这常用于从文件中读取数据，然后将其传递给命令。例如：`cat < file.txt` 会读取 `file.txt` 文件的内容并显示在终端上。
`4：2>`（标准错误重定向）	将错误输出重定向到指定的文件。这允许你将错误消息保存到文件中，而不是显示在终端上。例如：`./your_program 2> error.log` 将程序的错误输出保存到 `error.log` 文件中。
`5：&>`（输出和错误输出重定向）	同时将标准输出和标准错误输出都重定向到同一个文件。例如：`./your_program &> full_output.log` 将所有输出保存到 `full_output.log`。
`6：\|`（管道符） - 管道重定向	管道不是重定向操作符，但它与重定向一起使用，可以将一个命令的输出作为另一个命令的输入。例如：`ls \| grep "txt"` 会列出所有以 `.txt` 结尾的文件。
*`7：`（星号）和 `?`（问号） - 通配符**	星号可以匹配任意数量的字符，而问号可以匹配单个字符。它们通常用于文件名的模式匹配。例如：`rm *.txt` 删除当前目录下所有扩展名为 `.txt` 的文件。

dup2

#include <unistd.h>

int dup2(int oldfd, int newfd);

参数：
    int oldfd：要复制的旧文件描述符。
    int newfd：复制到的新文件描述符。

返回值：
    成功时，返回新的文件描述符（newfd）。
    失败时，返回 -1 并设置 errno 以指示错误。

错误代码：
    EBADF：oldfd 或 newfd 是一个无效的文件描述符。
    EINVAL：newfd 是一个保留的文件描述符编号。

描述：
    dup2 函数通常用于改变一个文件描述符的值，或者将一个文件描述符的作用扩展到另一个文件描述符。
    如果 newfd 是一个已经打开的文件描述符，调用 dup2 会导致 newfd 关闭并丢弃其关联的文件状态，然后 newfd 被设置为与 oldfd 相同。
    dup2 可用于重定向标准 I/O 流（如 stdin、stdout、stderr）。

直接看代码感受感受：

#include <stdio.h>
#include <unistd.h>
#include <fcntl.h>
int main()
{
	int fd = ::open("./log.txt", O_CREAT | O_RDWR);
	if (fd < 0)
	{
		perror("open");
		return 1;
	}
	::close(1);
	::dup2(fd, 1);
	for (;;)
	{
		char buf[1024] = {0};
		ssize_t read_size = ::read(0, buf, sizeof(buf) - 1);
		if (read_size < 0)
		{
			perror("read");
			break;
		}
		printf("%s", buf);
		fflush(stdout);
	}
	return 0;
}

简易Shell的模拟实现

http://t.csdnimg.cn/lecBdhttp://t.csdnimg.cn/lecBd

4. FILE

a：因为IO相关函数与系统调用接口对应，并且库函数封装系统调用，所以本质上，访问文件都是通过fd访问的。

b：所以C库当中的FILE结构体内部，必定封装了fd。

来段代码来感受一下这些接口都有什么区别：

直接执行：

重定向：./test > ./file

为什么会是这个结果？

我们发现 printf 和 fwrite （库函数）都输出了2次，而 write 只输出了一次（系统调用）。为什么呢？肯定和fork有关！

一般C库函数写入文件时是全缓冲的，而写入显示器是行缓冲。

printf fwrite 库函数会自带缓冲区，当发生重定向到普通文件时，数据的缓冲方式由行缓冲变成了全缓冲。

而我们放在缓冲区中的数据，就不会被立即刷新，甚至fork之后

但是进程退出之后，会统一刷新，写入文件当中。

但是fork的时候，父子数据会发生写时拷贝，所以当你父进程准备刷新的时候，子进程也就有了同样的一份数据，随即产生两份数据。

write 没有变化，说明没有所谓的缓冲。

综上： printf fwrite 库函数会自带缓冲区，而 write 系统调用没有带缓冲区。另外，我们这里所说的缓冲区，都是用户级缓冲区。其实为了提升整机性能，OS也会提供相关内核级缓冲区，不过不再我们讨论范围之内。

那这个缓冲区谁提供呢？ printf fwrite 是库函数， write 是系统调用，库函数在系统调用的“上层”，是对系统调用的“封装”，但是 write 没有缓冲区，而 printf fwrite 有，足以说明，该缓冲区是二次加上的，又因为是C，所以由C标准库提供。

5. 再谈对文件的理解

我们要对文件进行操作，前提是我们的程序先要跑起来。文件的打开和关闭，其实是CPU在执行我们的代码。什么是文件？

文件 = 内容（该目录里的所有文件信息详细数据） + 属性
http://t.csdnimg.cn/k8Ngthttp://t.csdnimg.cn/k8Ngt

A：打开文件：本质是进程打开文件。

B：文件没有被打开的时候，在哪里？存在磁盘里。

C：进程能到打开很多文件吗？能！（fd就是组织文件数组的下标！！！）

D：文件 -> 磁盘 -> 外设 -> 硬件 -> 向文件中写入，本质向硬件中写入

-> 用户没有权利直接写入 -> OS是硬件的管理者 -> 通过OS写入

->OS必须给我们提供系统调用

-> fopen/fwrite/fread/fprintf/scanf/printf/cin/cout...

-> 我们用的C/C++/... 其实都是对系通过调用接口的封装！

E：open的过程。write、read函数，本质是拷贝函数！！！

F：为什么 fd: 0、1、2 默认是打开的？键盘、鼠标、显示器、都是硬件啊？

Linux下一切皆文件！

在Linux和Unix系统中，"一切皆文件"的概念是一个核心哲学，意味着系统资源、硬件设备和常规文件都可以统一地用文件描述符来访问。文件描述符（fd）是一个抽象的概念，用于表示打开的文件或其他输入/输出资源。

E：C语言或者其他语言为什么要将系统调用进行封装？

系统调用不具有跨平台性，由于系统不同，系统调用的接口可能就不一样，所有的语言都要对不同的平台的系统调用进行封装，屏蔽掉底层的差异，实现自身的跨平台性！！！

三目的有声博客

关注

60
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

`1：>`（大于符号） - 强制输出重定向	将命令的输出重定向到一个文件中。如果该文件已存在，其原有内容将被覆盖。例如：`ls > file.txt` 将 `ls` 命令的输出保存到 `file.txt` 文件中。
`2：>>`（双大于符号） - 追加输出重定向	将命令的输出追加到现有文件的末尾，而不是覆盖文件。例如：`echo "Hello" >> file.txt` 会在 `file.txt` 文件的末尾追加字符串 "Hello"。
`3：<`（小于符号） - 输入重定向	将文件内容作为命令的输入。这常用于从文件中读取数据，然后将其传递给命令。例如：`cat < file.txt` 会读取 `file.txt` 文件的内容并显示在终端上。
`4：2>`（标准错误重定向）	将错误输出重定向到指定的文件。这允许你将错误消息保存到文件中，而不是显示在终端上。例如：`./your_program 2> error.log` 将程序的错误输出保存到 `error.log` 文件中。
`5：&>`（输出和错误输出重定向）	同时将标准输出和标准错误输出都重定向到同一个文件。例如：`./your_program &> full_output.log` 将所有输出保存到 `full_output.log`。
`6：\|`（管道符） - 管道重定向	管道不是重定向操作符，但它与重定向一起使用，可以将一个命令的输出作为另一个命令的输入。例如：`ls \| grep "txt"` 会列出所有以 `.txt` 结尾的文件。
*`7：`（星号）和 `?`（问号） - 通配符**	星号可以匹配任意数量的字符，而问号可以匹配单个字符。它们通常用于文件名的模式匹配。例如：`rm *.txt` 删除当前目录下所有扩展名为 `.txt` 的文件。