【Linux笔记】Linux环境变量与地址空间-CSDN博客

本文链接：https://blog.csdn.net/kk702392702/article/details/134295996

【Linux笔记】Linux环境变量与地址空间

一、命令行参数
- 1.1、main函数的参数
- 1.2、main函数的第三个参数
二、环境变量的概念与内容
三、设置环境变量
四、进程地址空间的概念

一、命令行参数

1.1、main函数的参数

我们以前在写C/C++程序的main函数的时候，应该都是不带参数的：

int main() {
	printf("hello world!!\n");
	return 0;
}

这可能会让人形成一种误解，为main函数式不能带参数的。

但事实上，main函数是可以带参数的，如果是学过java的朋友可能很清楚这一点：

int main(int argc, char *argv[]) {

	return 0;
}

从参数的形式可以看出，一个是int类型的变量一个是一个指针数组，可这是用来干嘛的啊？
其实这个argv里存的每一个字符指针都指向一个命令行参数，而argc这是这些参数的个数，我们可以在程序中打印出这些参数：
在这里插入图片描述
如上图，其实我们在运行我们自己所写的程序时候也可以传入一些参数，而系统会将我们呢传递的这些参数以空格为分隔，将它们转化成字符串放入argv数组中，然后我们就可以在程序中打印出这些字符串了，而第一个字符串是程序的名字，这是怎样都会存在的。
注意： 打印这些字符串需要c99才支持，所以我们需要再makefile文件中指定编译标准为c99。

但这又有什么用呢？难道只是为了打印这么简单吗？

其实我们类比我们平时在shell里面敲的各种指令就很好理解了。
例如ls指令，我们不单单可以只执行ls，也可以加入各种选项让它以不同的方式运行比如ls -l表示显示出文件的详细信息，ls -a表示显示出所有文件包括隐藏文件。

而我们平时写的各种C/C++程序运行起来后都是一个进程，shell中的各种指令运行起来也都是进程，所以我们也可以通过命令行参数的形式来是我们自己写的程序以不同的方式运行。

我们也可以将其类比成函数传参，传入不同的参数函数就会计算出不同的结果，只不过这些参数是程序外传进来的：
在这里插入图片描述

1.2、main函数的第三个参数

其实main函数还有第三个参数env，这第三个参数就与我们今天要讲的环境变量有关了，它的本质也是一个字符指针数组，其中每个指针执行的都是一个环境变量，我们也可以先将它打印出来看看鲜：
在这里插入图片描述

二、环境变量的概念与内容

2.1、环境变量的概念

大家可能都或多或少的听说过 “环境变量” 这个词，当我们在安装一些软件或是语言例如java、python时都有要求过配置环境变量。

其本质目的就是为了操作系统能直接找到对应的软件或者指令，也可以理解成是在操作系统环境中的一个变量，所以操作系统能直接的找到它。

这时候我们再看看对于环境变量比较学术的概念就会好理解一会点了：

环境变量（environment variables）一般是指在操作系统中用来指定操作系统运行环境的一些参数，如：临时文件夹位置和系统文件夹位置等。
环境变量是在操作系统中一个具有特定名字的对象，它包含了一个或者多个应用程序所将使用到的信息。例如Windows和DOS操作系统中的path环境变量，当要求系统运行一个程序而没有告诉它程序所在的完整路径时，系统除了在当前目录下面寻找此程序外，还应到path中指定的路径去找。用户通过设置环境变量，来更好的运行进程。

2.2、环境变量的分类

环境变量可以按作用范围和生存周期分为两类：
按作用范围分类：

环境变量： 相当于全局变量，存在于所有的Shell中，且具有继承性。
本地变量： 相当于局部变量，只存在于当前的Shell中，本地变量包含环境变量，但非环境变量不具有继承性。

按生存周期分类：

永久性环境变量： 需要修改配置文件，变量永久保存。
暂时性环境变量： 使用export定义，关闭Shell后失效。

2.3、环境变量的组织形式

我们所创建的所有进程其实都对应有一张环境变量表，这一张表其实就是一个字符指针数组(也可以理解成是一个字符串数组)，其结构大致如下：
在这里插入图片描述
环境变量表中的每一个指针都指向一个字符串，字符串的内容其实就是一些描述信息，最后以NULL结尾。

2.4、常见的环境变量

我们可以使用一下指令来查看一些常见的环境变量：

echo $环境变量名

1、PATH
PATH变量指定我们输入的各种指令的搜索路径：
在这里插入图片描述

2、HOME
该变量指定用户的主工作目录，即用户登录到Linux系统时，默认的目录：
在这里插入图片描述
以为上面用的是普通用户，所以还会多带个home，如果使用的是root用户，就不会带home了：

其中的原因也很容易理解，因为root是超级管理员，他当然能访问的范围就是最广的啦，而普通用户的权限较小，所以要放在/home工作目录中进行管理。

3、HISTSIZE
该变量查看Linux系统保存历史命令的数目：
在这里插入图片描述
其显示结果说明当前Linux系统中最多保存1000条历史命令。

4、LOGNAME
该变量指定显示当前的用户名：
在这里插入图片描述
5、HOSTNAME
该变量显示当前主机名称：

6、SHELL
该变量显示用户当前使用的解析器：

三、设置环境变量

3.1、通过命令获取或设置环境变量

我们可以通过一些命令来获取或设置环境变量。
1、echo
该命令能显示某一个环境变量的值。
这个命令我们上面已经演示过了：
在这里插入图片描述
2、env
该命令可以显示所有的环境变量：

3、set
set命令显示本地定义的shell变量和环境变量：

4、export
export命令可以创建一个新的环境变量：

使用export创建的环境变量值是一个暂时性的环境变量，如果关闭shell再重启就会失效。

5、unset
unset 命令功能是清除指定的环境变量：
在这里插入图片描述
6、readonly
该命令用于设置只读的环境变量：

只读的环境变量就是只能读取而不能修改，消除的办法只有重启shell。

3.2、通过代码获取获取环境变量

我们可以通过main函数的第三个参数——环境变量地址指针数组来获取环境变量：
在这里插入图片描述
其打印的结果几乎和我们在命令行使用env打印出来的一样：

我们也可以通过第三方变量environ获取环境变量：
在这里插入图片描述
变量environ是系统定义的一个全局的二级指针，它也是指向一个字符指针数组，也可以理解为指向一个环境变量表。

3.3、通过系统调用获取或修改环境变量

我们也可以通过getenv这个系统调用来访问特定的环境变量。
getenv可以获取一个环境变量的地址，我们可以使用一个字符指针来接收：
在这里插入图片描述

四、进程地址空间的概念

4.1、C/C++程序员认为的空间排布

在学习C/C++的时候，我们都会认为内存的划分为这几个区域：栈区、堆区、全局/静态区、代码区、字符常量区……
在这里插入图片描述

这其实只是在语言层面的理解，如果要放到系统层面还是不是这样呢？我们知道一个系统的内存是很大的，要管理的东西也很多，难道就只有上面这些吗？还有这是物理内存吗？

如果要放到系统层面来理解，这里就要给出一个结论：这不是物理内存，这是虚拟内存或进程地址空间。

4.2、虚拟地址与物理地址

在解释虚拟地址与物理地址之前，我们先来看看一个我们以前无法理解的现象。
这是代码：
在这里插入图片描述
这是运行结果：

我们会惊讶的发现两个进程访问了相同的地址，但是访问到的值竟然是不同的。这要是在以前我们可能会觉得这是不是操作系统出bug了！

其实操作系统并没有出bug，恰恰相反在这一点上操作系统做得很好。

我们知道，父子进程的代码是共享的，而数据是个自有一份的，并且观察以上的结果我们可以推断出变量的值不一样，说明进程中的变量绝对不是同一个变量。既然不是同一个变量，那访问的物理地址也绝不会是同一个。

所以我们曾经在C/C++中用学习到和看到的地址全都是虚拟地址，而物理地址，用户是一概看不到的。

但是程序的代码和数据是一定要存在物理内存上的，因为运行程序之前一定要现将代码和数据加载到物理内存中。

所以操作系统要做的就是将虚拟地址转化成物理地址。

4.3、地址空间与物理内存之间转换

其实虚拟地址和物理地址之间的转换主要是通过他们中间的一个“页表”来完成的：
在这里插入图片描述
图中父子进程的g_val的虚拟地址是一样的，但它们通过各自的页表映射到了不同的物理地址。
所以他们实际访问的物理地址是不同的，所以也就能访问到不同的值了。

而为什么说是虚拟地址呢？
其实在Linux中地址空间其实是Linux内核中的一种数据结构，在 Linux 中，OS 除了会为每个进程创建对应的 PCB（即 struct task_struct 结构体），还会创建对应的进程地址空间，即内核中的 struct mm_struct 结构体。
而在这个struct mm_struct 结构体中是通过顶一个各种start和end变量来划分进程地址空间的：

struct mm_struct {
    // ...
    
    unsigned long code_start;   // 代码区起始虚拟地址，比如 0x10000000h
    unsigned long code_end;     // 代码区结束虚拟地址，比如 0x00001111h
    
    unsigned long init_start;   // 已初始化数据区
    unsigned long init_end;
    
    unsigned long uninit_start; // 未初始化数据区
    unsigned long uninit_end;
    
    unsigned long heap_start;   // 堆区
    unsigned long heap_end;
    
    // ...
};