Linux-基础IO_linux征途——基础io

诸葛沈然

于 2024-04-28 09:00:07 发布

阅读量326

点赞数 4

分类专栏：程序员文章标签： linux 运维服务器

本文链接：https://blog.csdn.net/2301_77110907/article/details/138266948

版权

程序员专栏收录该内容

146 篇文章 0 订阅

订阅专栏

int open(const char pathname, int flags);
int open(const char pathname, int flags, mode_t mode);

pathname: 要打开或创建的目标文件
flags: 打开文件时，可以传入多个参数选项，用下面的一个或者多个常量进行“或”运算，构成flags。
参数:
O_RDONLY: 只读打开
O_WRONLY: 只写打开
O_RDWR : 读，写打开
这三个常量，必须指定一个且只能指定一个
O_CREAT : 若文件不存在，则创建它。需要使用mode选项，来指明新文件的访问权限
O_APPEND: 追加写
返回值：
成功：新打开的文件描述符
失败：-1

注：

open 函数具体使用哪个，和具体应用场景相关，如目标文件不存在，需要open创建，则第三个参数表示创建文件的默认权限,否则，使用两个参数的open。
O_RDONLY、O_WRONLY、O_RDWR……这些都是系统定义的宏，这些参数只占一个int整形中的一个比特位

在这里插入图片描述
注：write read close lseek…… 与C语言文件相关接口用法类似

文件描述符fd

在这里插入图片描述
注：

用户层看到的fd本质是系统中维护进程和文件对应关系的数组的下标
所谓的默认打开文件，标准输入，标准输出，标准错误，其实是由底层系统支持的，默认一个进程在运行的时候，就打开了0，1，2
对于进程来讲，对所有的文件进行操作，统一使用一套接口（一组函数指针），因此在OS看来一切皆文件

在这里插入图片描述

文件描述符就是从0开始的小整数。当打开文件时，操作系统在内存中要创建相应的数据结构来描述目标文件。于是就有了file结构体。表示一个已经打开的文件对象。而进程执行open系统调用，所以必须让进程和文件关联起来。每个进程都有一个指针files_struct*, 指向一张表files_struct,该表最重要的部分就是包涵一个指针数组，每个元素都是一个指向打开文件的指针！所以，本质上，文件描述符就是该数组的下标。只要拿着文件描述符，就可以找到对应的文件

补充：

标准输入、标准输出、标准错误在对应的文件描述符为0，1，2，对应C语言层上的是stdin、stdout、stderr
所有文件，如果要被使用时，首先必须被打开
一个进程可以打开多个文件，系统中被打开的文件一定有多个，多个被打开的文件，一定要被操作系统管理起来的（先描述（struct file（包含了目标文件的基本操作和部分属性）），再组织（双链表））
打开文件的过程：先在fd_array数组中找一个最小的没有被使用的数组下标位置，然后把新open出的文件的结构体地址填入到数组中去，对应该地址的下标返回给对应的进程
fd：本质是进程和文件之间对应关系的数组的下标，有了fd就可以找到打开文件的所有细节

文件描述符的分配规则

在这里插入图片描述

总结：

文件描述符的分配规则：在files_struct数组当中，找到当前没有被使用的
最小的一个下标，作为新的文件描述符
Linux进程默认情况下会有3个缺省打开的文件描述符，分别是标准输入0，标准输出1，标准错误2

重定向

在这里插入图片描述

在这里插入图片描述
补充：程序替换的时候不会影响重定向对应的数据结构的数据（程序替换影响的是进程虚拟地址空间部分，而重定向影响的是files_struct部分）

使用 dup2 系统调用

#include <unistd.h>
int dup2(int oldfd, int newfd);

注：

newfd使oldfd的一份拷贝，不是拷贝fd而是拷贝fd对应的fd_array数组中的内容

在这里插入图片描述

FILE

因为IO相关函数与系统调用接口对应，并且库函数封装系统调用，所以本质上，访问文件都是通过fd访问的。因此C库当中的FILE结构体内部，必定封装了fd

typedef struct \_IO\_FILE FILE; 在/usr/include/stdio.h
在/usr/include/libio.h
struct \_IO\_FILE {
 int _flags; /\* High-order word is \_IO\_MAGIC; rest is flags. \*/
#define \_IO\_file\_flags \_flags
 //缓冲区相关
 /\* The following pointers correspond to the C++ streambuf protocol. \*/
 /\* Note: Tk uses the \_IO\_read\_ptr and \_IO\_read\_end fields directly. \*/
 char\* _IO_read_ptr; /\* Current read pointer \*/
 char\* _IO_read_end; /\* End of get area. \*/
 char\* _IO_read_base; /\* Start of putback+get area. \*/
 char\* _IO_write_base; /\* Start of put area. \*/
  char\* _IO_write_ptr; /\* Current put pointer. \*/
 char\* _IO_write_end; /\* End of put area. \*/
 char\* _IO_buf_base; /\* Start of reserve area. \*/
 char\* _IO_buf_end; /\* End of reserve area. \*/
 /\* The following fields are used to support backing up and undo. \*/
 char \*_IO_save_base; /\* Pointer to start of non-current get area. \*/
 char \*_IO_backup_base; /\* Pointer to first valid character of backup area \*/
 char \*_IO_save_end; /\* Pointer to end of non-current get area. \*/
 struct \_IO\_marker \*_markers;
 struct \_IO\_FILE \*_chain;
 int _fileno; //封装的文件描述符
#if 0
 int _blksize;
#else
 int _flags2;
#endif
 _IO_off_t _old_offset; /\* This used to be \_offset but it's too small. \*/
#define \_\_HAVE\_COLUMN /\* temporary \*/
 /\* 1+column number of pbase(); 0 is unknown. \*/
 unsigned short _cur_column;
 signed char _vtable_offset;
 char _shortbuf[1];
 /\* char\* \_save\_gptr; char\* \_save\_egptr; \*/
 _IO_lock_t \*_lock;
#ifdef \_IO\_USE\_OLD\_IO\_FILE
};

在这里插入图片描述

总结：

FILE结构体中包含了int fileno的成员（也就是系统上的fd文件描述符）
fopen、fwrite、fread、fclose等f系列的库函数都是由底层open、write 、read、close实现的，通过open的返回值传给fileno，从而对系统调用函数进行封装
struct FILE内部包含：
1. 底层对应的文件描述符下标
1. 应用层C语言提供的缓冲区数据
所谓的默认打开文件，标准输入、标准输出、标准错误其实是由底层系统支持的，默认一个进程在运行的时候，就打开了0，1，2

在这里插入图片描述

一般C库函数写入文件时是全缓冲的，而写入显示器是行缓冲。printf fprintf等库函数会自带缓冲区，当发生重定向到普通文件时，数据的缓冲方式由行缓冲变成了全缓冲。而我们放在缓冲区中的数据，就不会被立即刷新，甚至fork之后但是进程退出之后，会统一刷新，写入文件当中。但是fork的时候，父子数据会发生写时拷贝，所以当你父进程准备刷新的时候，子进程也就有了同样的一份数据，随即产生两份数据。write 没有变化，说明没有所谓的缓冲
printf fputs等库函数会自带缓冲区，而 write 系统调用没有带缓冲区。另外，我们这里所说的缓冲区，都是用户级缓冲区。其实为了提升整机性能，OS也会提供相关内核级缓冲区。 printf fprintf 是库函数， write 是系统调用，库函数在系统调用的“上层”，是对系统调用的“封装”，但是 write 有内核级缓冲区，而 printf fwrite fputs等缓冲区是用户级缓冲区，由C标准库提供

注：系统调用函数与库函数尽量不要混在一起使用，可能会与统一使用的函数的运行结果有所差异

文件系统

文件：打开的文件、普通未打开的文件
打开的文件：属性与操作方法的表现就是struct file{} 属于内存级文件
普通未打开的文件：磁盘上面未被加载到内存的
文件系统功能：将上述的这些文件管理起来

在这里插入图片描述

磁盘

磁盘是计算机主要的存储介质，可以存储大量的二进制数据，并且断电后也能保持数据不丢失。早期计算机使用的磁盘是软磁盘（Floppy Disk，简称软盘），如今常用的磁盘是硬磁盘（Hard disk，简称硬盘）。

在这里插入图片描述
补充：

内存在操作系统的角度使用的时候，基本单位是4KB，但在使用角度是1字节
磁盘存储的基本单位是扇区（512字节）（磁盘读取的最小单元）
内存与磁盘间IO时，基本单位是4KB，是通过文件系统来完成的

磁盘的划分

我们可以将磁盘想象成磁带（线性结构），将磁盘看成一个线性空间（数组），类型为扇区的数组、数组个数为10亿多

在这里插入图片描述

这样划分就不用让OS读取数据时在哪个盘面、哪个磁道、哪个扇区找了，OS与磁盘映射关系可以通过磁盘驱动来完成，这样也就做到强解耦性。无论换机械硬盘还是固态硬盘，OS都不用改变读取磁盘数据的数据结构，只需改变磁盘的驱动程序即可

注：操作系统读取磁盘数据时的下标——LBA

磁盘经过在OS中的虚拟化成数组，但是所占空间太大，因此需要进行分区化管理，并对该区域进行格式化（写入文件系统（数据和方法））。eg：Windows中的C盘、D盘……
每个分区再进行分组——块组
Linux系统下支持多种文件系统：Ext2、Ext3、fs、usb-fs、sysfs、proc

inode

在这里插入图片描述

Linux ext2文件系统，上图为磁盘文件系统图（内核内存映像肯定有所不同），磁盘是典型的块设备，硬盘分区被划分为一个个的block。一个block的大小是由格式化的时候确定的，并且不可以更改。例如mke2fs的-b选项可以设定block大小为1024、2048或4096字节。而启动块（Boot Block）的大小是确定的，

Block Group：ext2文件系统会根据分区的大小划分为数个Block Group。而每个Block Group都有着相同的结构组成。
超级块（Super Block）：存放文件系统本身的结构信息。记录的信息主要有：bolck 和 inode的总量，未使用的block和inode的数量，一个block和inode的大小，最近一次挂载的时间，最近一次写入数据的时间，最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block的信息被破坏，可以说整个文件系统结构就被破坏了
GDT，Group Descriptor Table：块组描述符，描述块组属性信息
块位图（Block Bitmap）：Block Bitmap中记录着Data Block中哪个数据块已经被占用，哪个数据块没有被占用
inode位图（inode Bitmap）：每个bit表示一个inode是否空闲可用。
i节点表:存放文件属性如文件大小，所有者，最近修改时间等
数据区：存放文件内容

注：

Block Group每个块组中都有，但是Super Block并不是每个块组中都有
每一个文件都对应一个inode节点

总结：

基本上，一个文件一个inode（包括文件）
inode是一个文件的所有的属性集合（不包含文件名）（空文件也是占据空间的，所有的属性也是数据也要占据空间）
真正表示文件的不是文件名，而是文件的inode编号
inode是可以和特定的数据块产生关联的
程序员是通过路径定位的（目录）来定位一个文件，而操作系统是通过目录的Data blocks来确定文件名和inode的映射关系
目录是文件，有独立的inode和数据块
创建一个新文件主要有一下4个操作：
1. 存储属性 ——内核先找到一个空闲的i节点。内核把文件信息记录到其中。
1. 存储数据 ——该文件需要存储在三个磁盘块，内核找到了三个空闲块。将内核缓冲区数据缓冲到磁盘的数据区中
1. 记录分配情况——文件内容按顺序存放（数据块）。内核在inode上的磁盘分布区记录了上述块列表。
1. 添加文件名到目录——内核将入口添加到目录文件。文件名和inode之间的对应关系将文件名和文件的内容及属性连接起来。
大多是操作系统在同一个目录下是不允许存在同名文件的
删除文件不需要清空该文件占据的所有的空间数据（只需将该文件的inode和对应的数据块无效化即可（文件对应inode和Block位图中的数字1设置为0，并将该文件所对应的目录中的数据块的关于该文件内容清空即可）
Linux下属性和内容是分离的，属性inode保存的（在同一块块组inode编号是不同的，但是跨组的inode编号可能相同），内容Data blocks保存的

补充：

inode描述了文件大小和指向数据块的指针
通过inode可获得文件占用的块数
通过inode可实现文件的逻辑结构和物理结构的转换

软硬连接

硬链接:
在这里插入图片描述
硬链接的应用场景：方便进行相对路径的路径的设置

在这里插入图片描述
因此，可以看出.、…的底层实现是通过硬链接的方式来实现的
注：

真正找到磁盘上文件的并不是文件名，而是inode。其实在linux中可以让多个文件名对应于同一个inode
在删除文件时干了两件事情：1.在目录中将对应的记录删除，2.将硬连接数-1，如果为0，则将对应的磁盘释放。

软链接:
在这里插入图片描述
注：硬链接是通过inode引用另外一个文件，软链接是通过名字引用另外一个文件

总结：软硬链接的区别：本质是是否是独立文件，有无独立inode；用途：软链接可以指向特定的文件方便进行快速索引，硬链接是能进行相对路径设置

补充：

软链接文件是一个独立的文件有自己的inode节点，通过数据中保存的源文件路径访问源文件
硬链接是文件的一个目录项，与源文件共用同一个inode节点，直接通过自己的inode节点访问源文件
不同分区有可能有不同文件系统，因此硬链接不能跨分区建立；软连接可以跨文件系统进行连接，硬链接不可以
当删除源文件时，软链接文件失效
ln生成符号链接文件指的是 ln -s 生成软链接文件

文件的ACM

在这里插入图片描述

总结：

Access 最后访问时间
Modify 文件内容最后修改时间
Change 属性最后修改时间

文件的ACM的应用场景：
在这里插入图片描述

动态库和静态库

静态库与动态库

使用顶尖的工程师写的代码是为了开发效率和鲁棒性（健壮性）
使用顶尖的工程师写的功能一般通过库、开源代码、基本的网络功能调用（各种网络接口、语音识别）
库分为动态库和静态库
库的命名：取消前缀lib，去掉.之后的内容，剩下的就是库的名字
生成可执行程序的方式有两种：动态链接、静态链接

在这里插入图片描述
注：

ldd可以列出一个程序所需要得动态链接库； file命令用于辨识文件类型
Linux中，默认情况下形成的可执行程序是动态链接的
将库中的我的可执行程序中使用的二进制代码，拷贝进我的可执行程序中——静态链接
一般为了更好的支持开发，第三方库或者语言库都必须提供两个库，一个叫做静态库，一个叫做动态库，方便程序员根据需要进行可执行程序的生成
动态链接的特点：体积小、节省资源（磁盘、内存），依赖库，一旦丢失可执行程序不可执行
静态链接的特点：体积大、浪费资源（磁盘、内存），不依赖库，库丢失，可执行程序不受影响

总结：

静态库（.a）：程序在编译链接的时候把库的代码链接到可执行文件中。程序运行的时候将不再需要静态库
动态库（.so）：程序在运行的时候才去链接动态库的代码，多个程序共享使用库的代码。
一个与动态库链接的可执行文件仅仅包含它用到的函数入口地址的一个表，而不是外部函数所在目标文件的整个机器码
在可执行文件开始运行以前，外部函数的机器码由操作系统从磁盘上的该动态库中复制到内存中，这个过程称为动态链接（dynamic linking）
动态库可以在多个程序间共享，所以动态链接使得可执行文件更小，节省了磁盘空间。操作系统采用虚拟内存机制允许物理内存中的一份动态库被要用到该库的所有进程共用，节省了内存和磁盘空间

生成静态库

[root@localhost linux]# ls
add.c add.h main.c sub.c sub.h
[root@localhost linux]# gcc -c add.c -o add.o
[root@localhost linux]# gcc -c sub.c -o sub.o
生成静态库


**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化的资料的朋友，可以点击这里获取！](https://bbs.csdn.net/topics/618542503)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

诸葛沈然

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Linux-基础IO_linux征途——基础io

pathname: 要打开或创建的目标文件flags: 打开文件时，可以传入多个参数选项，用下面的一个或者多个常量进行“或”运算，构成flags。参数:O_RDONLY: 只读打开O_WRONLY: 只写打开O_RDWR : 读，写打开这三个常量，必须指定一个且只能指定一个O_CREAT : 若文件不存在，则创建它。需要使用mode选项，来指明新文件的访问权限O_APPEND: 追加写返回值：成功：新打开的文件描述符失败：-1。
复制链接

扫一扫