【Linux】探索文件I/O奥秘，解锁软硬链接与生成动静态库知识

可涵不会debug

已于 2024-09-18 12:14:54 修改

阅读量807

点赞数 44

分类专栏： Linux 文章标签： linux 运维服务器进程 I/O

于 2024-09-18 09:00:00 首次发布

本文链接：https://blog.csdn.net/hanwangyyds/article/details/142101420

版权

Linux 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

flags如何实现一个参数就可以有多个参数传参的效果？

3.3文件描述符的分配规则&&利用规则实现重定向

fd的分配规则：

使用 dup2 系统调用

4.缓冲区问题

4.1c语言为什么要存在语言层面上的缓冲区？

4.2那什么时候开始刷新到系统当中的缓冲区呢？

软连接：本质是一个文件，有独立的inode编辑

硬连接：本质不是一个独立的文件，因为它的inode编号和目标文件相同！编辑

7.3我们如何将目标文件进行打包形成一个库文件呢？

7.3.1生成静态库

7.3.2生成动态库

1、C文件接口

1.1什么是当前路径？

进程开始启动时，进程所在的路径默认就是当前路径

1.2程序默认打开的文件流：

stdin 标准输入，键盘设备
stdout 标准输出，显示器设备
stderr 标准错误，显示器设备

仔细观察发现，这三个流的类型都是FILE*, fopen返回值类型，文件指针，那什么是FILE类型呢？这是C标准库自己封装的一个结构体。

2、系统文件I/O

操作文件，除了C接口（当然，C++也有接口，其他语言也有），我们还可以采用系统接口来进行文件访问

为什么访问文件不仅仅有C语言上的文件接口，OS必须提供对应的访问文件的系统调用？

原因：

其实上述讲的C语言接口是OS系统调用函数的封装，系统调用函数封装了C语言接口，是为了可移植性和跨屏平台性！

2.1.接口介绍：

2.1.1open：

int open(const char *pathname, int flags);
int open(const char *pathname, int flags, mode_t mode);

参数讲解;

pathname: 要打开或创建的目标文件

flags: 打开文件时，可以传入多个参数选项，用下面的一个或者多个常量进行“或”运算，构成flags。

O_RDONLY: 只读打开
O_WRONLY: 只写打开
O_RDWR : 读，写打开

上面这三个常量，必须指定一个且只能指定一个

O_CREAT : 若文件不存在，则创建它。需要使用mode选项，来指明新文件的访问权限
O_APPEND: 追加写，不会将文件内容刷新，是进行内容的追加。

mode选项：

指明新文件的访问权限。

返回值：
成功：新打开的文件描述符
失败：-1

flags如何实现一个参数就可以有多个参数传参的效果？

我们通过flag标记位，看看哪个位上有1就输出哪一位，我们用位运算的方式来实现传多个参数的目的！

int fd1 = open("log1.txt", O_WRONLY|O_CREAT|O_TRUNC, 0666);

所以我们的flags就实现一个参数就可以有多个参数传参的效果！

注意点：

不要往文件里面书写'/0'，这样会造成乱码。我们要清楚'/0'本身并不是字符串内容的一部分，而是指明字符串结束的标志。

open 函数具体使用哪个，和具体应用场景相关，如目标文件不存在，需要open创建，则第三个参数表示创建文件的默认权限,否则，使用两个参数的open。

open函数的返回值：

open函数的返回值文件描述符到底是什么呢？

在认识返回值之前，先来认识一下两个概念: 系统调用和库函数

上面的 fopen fclose fread fwrite 都是C标准库当中的函数，我们称之为库函数（libc）。
而， open close read write lseek 都属于系统提供的接口，称之为系统调用接口
回忆一下我们讲操作系统概念时，画的一张图

系统调用接口和库函数的关系，一目了然。
所以，可以认为，f#系列的函数，都是对系统调用的封装，方便二次开发。

C语言的文件接口，本质就是封装了系统调用！

3.文件描述符fd

通过对open函数的学习，我们知道了文件描述符就是一个小整数

3.1 0 & 1 & 2

Linux进程默认情况下会有3个缺省打开的文件描述符，分别是标准输入0，标准输出1，标准错误2.
0,1,2对应的物理设备一般是：键盘，显示器，显示器

文件描述符的本质就是数组下标！

当我们打开文件时，操作系统在内存中要创建相应的数据结构来描述目标文件。于是就有了file结构体。表示一个已经打开的文件对象。而进程执行open系统调用，所以必须让进程和文件关联起来。

3.2进程怎么知道了打开哪些文件呢？

每个进程都有一个指针*files, 指向一张表files_struct,该表最重要的部分就是包涵一个指针数
组，每个元素都是一个指向打开文件的指针！所以，本质上，文件描述符就是该数组的下标。所以，只要拿着文件描述符，就可以找到对应的文件！

3.3文件描述符的分配规则&&利用规则实现重定向

fd的分配规则：

最小的没有被使用的数组下标，会分配给最新打开的文件

#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <stdlib.h>
int main()
{
close(1);
int fd = open("myfile", O_WRONLY|O_CREAT, 00644);
if(fd < 0){
perror("open");
return 1;
}
printf("fd: %d\n", fd);
fflush(stdout);
close(fd);
exit(0);
}

此时，我们发现，本来应该输出到显示器上的内容，输出到了文件 myfile 当中，其中，fd＝1。这种现象叫做输出重定向。常见的重定向有:>, >>, <

使用 dup2 系统调用

#include <unistd.h>
int dup2(int oldfd, int newfd);

将旧的内容指向的指针指向了新，因此最后都只剩下old。

以后重定向只需要使用dup2函数即可。

直接完成重定向：

下图就是完成了输出重定向——>dup2(oldfd,1)

照常还是从0里面读数据，但是我们不从键盘上读了，我们从log.txt里面进行读取

4.缓冲区问题

4.1c语言为什么要存在语言层面上的缓冲区？

我们再调用fwrite的时候，有效减少我们调用系统中的write，我们要清楚调用系统调用是有成本的，时间和空间的成本，每次调用fwrite，我们可能把数据放在了语言层面的缓冲区，有效减少调用系统调用的次数，也是减少了系统拷贝的次数！本质就是用空间换时间，增加效率。

4.2那什么时候开始刷新到系统当中的缓冲区呢？

无刷新，无缓冲
行刷新——显示器，xxxxx\n，遇到换行符就会刷新
全缓冲，全部刷新——普通文件，缓冲区被写满，才会刷新
自己调用fflush函数强制刷新
进程退出的时候，要自动刷新

4.3缓冲区在哪里呢？

就在file*指向的结构体里面

每个文件都有一个缓冲区

4.4与fork函数的结合

为什么C语言层面的fwrite和fprintf写了两份，而write只写了一份？

fork之前就已经把3条消息打印出来了，如果向显示器进行打印，刷新方案就是行

write是直接将内容输入到了系统内部的缓冲区当中，而C语言调用的fwrite是将内容放在了语言层面的缓冲区。C语言层面的缓冲区是在FILE里面的。一旦利用write将内容放在了系统内部，那么就跟进程没有关系了

fwrite函数重定向到了普通文件，那么刷新策略就会变成全刷新，而write是输出到显示器上的，因此就是行刷新！

重定向之后，对test.txt刷新策略，缓冲区刷新策略立即变成了全缓冲，因为不会把缓冲区填满，所以在调用fork函数的时候，内容还在缓冲区当中。所以只有在进程结束的时候才会刷新缓冲区，缓冲区内保存的是进程的数据，——父进程的数据，对缓冲区进行写时拷贝，父进程有一份，子进程也有一份，所以最后才会输出两次

write函数因为是行刷新，在fork之前就已经刷新缓冲区了，就不存在将缓冲区的内容写时拷贝到子进程的情况

5、关于磁盘等相关硬件知识

系统中是不是所有的文件都被打开了呢？大部分文件都是没有被打开的。如果没有被打开的文在哪里保存呢？

答：在磁盘、SSD当中保存，那么OS要不要管理一下磁盘上的文件呢？一定要，那现在的问题就是如何让OS快速定位一个文件！

5.1、磁盘的机械构成

5.2、磁盘的物理存储

每个磁盘是由一个一个小的同心圆也就是磁道组成的。

扇区：是磁盘IO的基本单位

如果我想访问磁盘中一个扇区：通过磁头进行定位到具体的磁道/柱面（cylinder），然后确定使用哪一个磁头（head），最后再确定哪一个扇区（sector）。这就是我们的CHS定位法！

那么任何文件，不就是多个扇区承载的数据！

5.3、磁盘的逻辑存储

我们其实可以把磁盘的存储当成线性结构来看待（磁带当中的长线条）。

因此我们对磁盘的管理，就变成了对数组的增删改查！

我们可以采用分治的思想，将很大的内存分成多个小块，我们对每一个小块内存的管理模式可以逐个采用到其他小块，这样我们就能根据分治的思想管理更大的内存！

5.4文件系统

比如说我们将800个GB分成多个小块内存，分成10个GB，那么我们如何管理这10个GB内存的空间呢？

磁盘是典型的块设备，硬盘分区被划分为一个个的block。一个block的大小是由格式化的时候确定的，并且不可以更改。

Linux磁盘文件特性：文件 = 内容 + 属性。

内容和属性分开存储，文件名不属于文件属性！系统中，标识一个文件，用的不直接是文件名，而是inode！

Block Group：ext2文件系统会根据分区的大小划分为数个Block Group。而每个Block Group都有着相同的结构组成。将一个大的内存分成多个小块。
超级块（Super Block）：存放文件系统本身的结构信息。记录的信息主要有：bolck 和 inode的总量，未使用的block和inode的数量，一个block和inode的大小，最近一次挂载的时间，最近一次写入数据的时间，最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block的信息被破坏，可以说整个文件系统结构就被破坏了！（最重要！）
块位图（Block Bitmap）：Block Bitmap中记录着Data Block中哪个数据块已经被占用，哪个数据块没有被占用
inode位图（inode Bitmap）：每个bit表示一个inode是否空闲可用。
i节点表(inode table):存放文件属性。如文件大小，所有者，最近修改时间等
数据区（data block）：存放文件内容