【Linux】：重定向和缓冲区

stackY、

已于 2024-07-14 16:06:15 修改

阅读量1.2k

点赞数 16

分类专栏： Linux系统编程文章标签： linux 运维服务器

于 2024-07-14 16:06:07 首次发布

本文链接：https://blog.csdn.net/Yikefore/article/details/140405478

版权

Linux系统编程专栏收录该内容

32 篇文章 5 订阅

订阅专栏

朋友们、伙计们，我们又见面了，本期来给大家带来关于重定向和缓冲区的相关知识点，如果看完之后对你有一定的启发，那么请留下你的三连，祝大家心想事成！

C 语言专栏：C语言：从入门到精通

数据结构专栏：数据结构

个人主页：stackY、

C + + 专栏：C++

Linux 专栏：Linux

1. 重定向

重定向这个概念在前面Linux常见指令章节就介绍过它的指令以及用法，那么本节来一起深入了解一下重定向：

1.1 输出重定向

echo 字符串 > 文件：将本来输出在显示器文件（标准输出）上的字符串输出至指定的文件。

标准输出对应的文件fd是1。

下面用代码来实现一下重定向的功能：
#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <string.h>

#define FILE_NAME "log.txt"

int main()
{
    // 关闭标准输出
    close(1);
    int fd = open(FILE_NAME, O_WRONLY | O_CREAT | O_TRUNC, 0666);
    printf("fd: %d\n", fd);
    fprintf(stdout, "stdout->fd: %d\n", stdout->_fileno);

    // 刷新
    fflush(stdout);
    close(fd);
}
先看结果，再分析代码：

我们都知道文件fd的分配规则，是寻找最小的未被使用的fd进行分配，所以我们先把1号文件描述符关闭，然后再打开文件时，1号文件描述符就被新打开的文件分配走了，这些C语言打印函数，默认是往1号文件描述符对应的文件中打印，简单的说就是它们只认识1这个数字，并不会在乎这个文件到底是不是显示器文件，所以才会把数据打印到新打开的文件中。

至于这里为什么要加这个fflush用来刷新缓冲区在后续会详细介绍。

1.2 追加重定向

追加重定向直接把打开文件时的方式从清空改为追加即可：

#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <string.h>

#define FILE_NAME "log.txt"

int main()
{
    // 关闭标准输出
    close(1);
    //int fd = open(FILE_NAME, O_WRONLY | O_CREAT | O_TRUNC, 0666);
    int fd = open(FILE_NAME, O_WRONLY | O_CREAT | O_APPEND, 0666);
    printf("fd: %d\n", fd);
    fprintf(stdout, "stdout->fd: %d\n", stdout->_fileno);

    // 刷新
    fflush(stdout);
    close(fd);
}

1.3 输入重定向

cat指令默认是从标准输入键盘文件中读取数据；

cat < 文件：本来从键盘读取数据，但是重定向为从指定的文件读取数据。

标准输入对应的文件fd是0。
#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <string.h>

#define FILE_NAME "log.txt"

int main()
{
    // 关闭标准输入
    close(0);

    int fd = open(FILE_NAME, O_RDONLY);

    char buffer[1024];
    fread(buffer, 1, sizeof(buffer), stdin);

    printf("%s\n", buffer);
    close(fd);
}
当我们把标准输入文件fd关闭后，根据文件fd的分配规则，新创建的文件就被分配到了0号文件fd，C语言的这些读取接口只认识0号文件fd，只认识0这个数组，所以就直接从0号fd对应的文件中直接读取。

重定向之后上层的fd不变，但是底层fd的指向在变化，所以重定向的本质是修改特定文件fd的下标内容。

1.4 重定向系统调用接口

#include <unistd.h>
int dup2(int oldfd, int newfd);

代码演示：

#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>

#define FILE_NAME "log.txt"

int main()
{
    int fd = open(FILE_NAME, O_RDONLY);
    // 重定向
    dup2(fd, 0);
    char buffer[1024];
    fread(buffer, 1, sizeof(buffer), stdin);

    printf("%s\n", buffer);
    close(fd);
}

dpu2接口其实是文件描述符级别的数组内容的拷贝！

注意：

程序替换是不影响曾经的重定向；

程序替换没有创建新的进程，它更改的是物理到虚拟的转化以及对应的页表，并不会影响进程PCB，所以程序替换不会影响重定向。

2. 标准错误stderr

打印结果分为错误打印和正确打印，正确打印对应的是stdin，错误打印对应的是stderr，它们两者都是打印在显示器上的。

有了stderr之后，就可以将正确打印和错误打印的数据分别存储在两个不同的文件，最主要的是为了查错，当程序出错时，直接去存储错误结果文件查找错误原因。

我们在命令行使用的重定向都是简写，完整的写法是：
./exe 1 > log.txt  // 输出重定向至log.txt
./exe 1 > log.txt 2 > &1 // 将标准输出和标准错误都重定向至log.txt
./exe 1 > log.txt 2 > log.txt.error // 标准输出重定向至log.txt，标准错误重定向至log.txt.error

3. 缓冲区

在前面的文件fd章节提到过，读写数据的本质是将内核缓冲区中的数据来回拷贝。

那么我们所理解的缓冲区其实就是一块由操作系统提供的内存空间。

3.1 缓冲区存在的价值

举一个现实中的例子来理解缓冲区：

小明居住在西安，他的好朋友居住在苏州，小华和小明每年都要过生日，双方都会在彼此过生日的时候挑选好生日礼物，小明等到小华过生日的前两个月，直接骑着骑行车从西安历经两个月到了苏州，刚好把他给小华准备的生日礼物送到，小华在小明过生日的时候也一样，都是骑两个月自行车去送礼物，就这样持续了好几年，某一天小明和小华家楼下都开了一家快递公司，每小华过生日的小明直接把礼物交给快递公司，让快递公司托运给小华，当小明把礼物给快递公司时，站在小明的视角礼物已经送走了，但是站在小华的视角，礼物当前还没收到，需要时间，但这个时间肯定比小明骑着自行车送过来要更快。

在这个例子中，这个快递公司扮演的角色就类似于缓冲区，正是有了快递公司的存在，大大提升了小明送礼物的效率。

所以缓冲区的存在可以提高使用者的效率，正是因为有了缓冲区的存在，我们可以积累一部分数据再统一发送，减小了发送成本，提升了发送效率。

3.2 缓冲区的刷新方式

因为缓冲区可以暂存数据，所以它必须要有对应的刷新策略；
一般策略：

1. 无缓冲（有数据立即刷新）
2. 行缓冲（按行为单位进行刷新）
3. 全缓冲（等到数据写满缓冲区再刷新）

特殊策略：

1. 强制刷新
2. 进程退出的时候，一般要进行刷新缓冲区

对于显示器文件，一般使用的是行刷新策略；

对于磁盘文件，一般使用的是全缓冲策略。

3.3 分析样例

下面以缓冲区这个概念为基础，分析一下下面这段代码：

#include <stdio.h>
#include <string.h>
#include <unistd.h>

int main()
{
    fprintf(stdout, "C: hello fprintf\n");
    printf("C: hello printf\n");
    fputs("C: hello fputs\n", stdout);
    const char *str = "system call: hello write\n";
    write(1, str, strlen(str));

    fork(); // 注意fork的位置！
    return 0;
}

命令行运行结果：

当我们直接运行是，和预期一致，都是打印在显示器上的，没有任何问题，但是一旦我们重定向至文件，此时就很奇怪了，接下来我们一步一步分析：

1. 当我们直接向显示器打印，显示器文件的刷新方式是行刷新，我们打印的字符串都有'\n'，在fork创建子进程之前，数据已经被刷新完毕，所以三条C接口消息和一条系统调用接口消息。
2. 当我们将内容重定向至文件log.txt，本质就是向磁盘文件进行写入，我们的系统对于数据的刷新策略从行缓冲变成了全缓冲！
3. 全缓冲的策略意味着缓冲区变大，我们写入的简单数据不足以把缓冲区写满，所以在fork执行的时候，数据依旧停留在缓冲区中。
4. 当进程退出的时候，一般要刷新缓冲区，即使数据没有满足刷新条件！
5. 观察文件中的写入结果发现C接口写入的数据是双倍的，但是系统调用接口写入的数据只有一个，所以这里的缓冲区和和操作系统没有关系，只和C语言本身有关！
6. C/C++提供给我们的缓冲区，里面一定保存的是用户的数据，属于当前进程在运行时自己的数据，但是，当我们把数据交给了OS，此时该数据就属于OS，不属于用户了。
7. 刷新缓冲区的这个操作就是把进程的数据写入到操作系统，刷新的操作属于清空、写入，所以，在fork之后，OS检测到了父子进程任意一方要对数据进行写入、清空，此时就发生了写时拷贝，父子进程各有一份数据，所以才会C语言调用的接口写入数据时才会写入两次。
8. 系统调用接口是直接写入到操作系统，不属于进程数据，所以不发生写时拷贝，只会有一份数据。