虚拟地址空间


1.虚拟地址空间究竟是什么?
2.映射关系的维护是谁做的?

1.如何理解区域划分

所谓的区域划分,本质是在一个范围里定义start和end。

struct destop
{
	int start;
	int end;
};

struct destop one = { 1, 50 };
struct destop two = { 51, 100 };

虚拟地址空间是一种内核数据结构,它里面至少要有对各个区域的划分。

struct addr_room
{
	int code_start;
	int code_end;
	
	int init_start;
	int init_end;

	int uninit_start;
	int uninit_end;

	int heap_start;
	int heap_end;

	int stack_start;
	int stack_end; 

	//... 其他的属性
};

地址空间和页表(用户级)是每个进程都私有一份。(页表是一种数据结构,它内部有映射关系,也有权限的管理,+MMU)
只要保证每一个进程的页表映射的是物理内存的不同区域,就能做到进程之间不会互相干扰,进而保证进程的独立性。

2.为什么一个变量可以存储两个不同的值?

首先我们观察下面一段代码:

  1 #include <stdio.h>
  2 #include <unistd.h>
  3 #include <stdlib.h>
  4 
  5 int g_val = 0;
  6 int main()
  7 {
  8   pid_t id = fork();
  9   if(id <0)
 10   {
 11     perror("fork");
 12     return 0;
 13   }
 14   else if(id == 0)
 15   {
 16     printf("child[%d]:%d,%p\n",getpid(),g_val,&g_val);
 17   }
 18   else
 19   {
 20     printf("parent[%d]:%d,%p\n",getpid(),g_val,&g_val);                                                                                                                                                      
 21   }
 22   return 0;
 23 }

运行结果:

[jyf@VM-12-14-centos lesson9]$ ./a.out
parent[4479]:0,0x601050
child[4480]:0,0x601050

我们发现变量值和变量地址是一模一样的,很好理解呀,因为子进程是以父进程为模板,父进程并没有对变量值做任何修改。
我们在将代码进行修改:

  1 #include <stdio.h>
  2 #include <unistd.h>
  3 #include <stdlib.h>
  4 
  5 int g_val = 0;
  6 int main()
  7 {
  8   pid_t id = fork();
  9   if(id <0)
 10   {
 11     perror("fork");
 12     return 0;
 13   }
 14   else if(id == 0)
 15   { //子进程肯定先跑完,也就是子进程先修改,完成之后,父进程在读取
 16     g_val = 100;
 17     printf("child[%d]:%d,%p\n",getpid(),g_val,&g_val);
 18   }
 19   else //parent 
 20   {
 21     sleep(3);
 22     printf("parent[%d]:%d,%p\n",getpid(),g_val,&g_val);
 23   }
 24   sleep(1);                                                                                                                                                                                                  
 25   return 0;                                                                                                                                                                        
 26 }              

运行结果:

[jyf@VM-12-14-centos lesson9]$ ./a.out
child[6691]:100,0x601058
parent[6690]:0,0x601058

我们发现父子进程,输出的变量地址是一样的,但变量的值不同。

一个变量可以存储两个不同的值吗?答案是否定的。输出的变量值不同说明它们绝对不是同一个变量,但输出的地址相同,说明它们不是物理地址,在Linux环境下,它叫做虚拟地址,我们在C/C++下,看到的都是虚拟地址,物理地址用户一概看不到,由OS统一管理,将虚拟地址映射成物理地址。进程地址空间是一种内核的数据结构,每一个进程都私有一份进程地址空间和页表,只要保证进程虚拟地址通过页表映射的是物理内存的不同区域,就能做到进程之间不会互相干扰,保证进程的独立性。所以父子进程的g_val的虚拟地址是一样的,当子进程修改g_val的值,通过页表映射到物理内存的不同区域,就出现了类似一个变量内存储两个不同的值的现象。
如此pid_t id = fork(); 中的id值为什么可以有两个返回值相信大家都能理解了。

在这里插入图片描述

3.深入理解虚拟地址空间

一些Linux指令:readelf -s 可执行文件, 用于查看可执行程序中的符号表。
objdump -f 可执行文件,用于查看可执行程序中文件头相关信息,一个反汇编工具。

[jyf@VM-12-14-centos lesson9]$ objdump -f a.out

a.out:     file format elf64-x86-64
architecture: i386:x86-64, flags 0x00000112:
EXEC_P, HAS_SYMS, D_PAGED
start address 0x0000000000400560


当我们的程序通过编译形成可执行程序的时候,,还没有加载到内存的时候,请问我们程序的内部有地址吗?
可执行程序在编译的时候,内部其实就已经有地址了。
地址空间不要仅仅理解为OS要遵守的,编译器也要遵守。即编译器在编译代码的时候,就已经给我们形成了各个区域,代码区,数据区等等,并且,采用Linux一样的编制方式,给每一个变量,每一个代码都进行了编址,故,程序在编译的时候,每一个字段早已经具有了一个虚拟地址!!!
程序内部的地址,依旧用的是编译器编译好的虚拟地址,当程序加载到内存的时候,每行代码,每个变量便具有了一个外部的物理地址。
所以CPU读取到指令的时候,指令内部的地址是虚拟地址。可见,每一个变量,每一个函数都有地址,编译器给的,同样它们也一定被加载到物理内存中。

在这里插入图片描述

为什么要有地址空间?

1.凡是非法访问或者映射,OS都会识别到,并终止这个进程。这样可以做到有效保护内存。
我们知道地址空间和页表都是OS创建并维护的,是不是就意味着凡是使用地址空间和页表进行映射,也一定要在OS的监管之下进行访问,也便保护了物理内存中的所有合法数据,包括各个进程,以及内核的相关有效数据。

2.因为有地址空间和页表的存在,是不是我们的物理内存可以对未来的数据进行任意位置的加载?
当然可以。
这样物理内存的分配和进程的管理就可以做到没有关系,这样内存管理模块和进程管理模块就完成了解耦合。
从这我们可知,空间配置器配置的地址是虚拟地址,我们在C/C++中new/malloc申请空间的时候,本质是在虚拟地址空间进行申请。

如果我申请了物理空间,但我不立马使用,是不是空间的浪费呢?是的。
本质上,因为地址空间的存在,所以上层申请空间,其实是在地址空间上进行申请,物理内存甚至一个字节都不给你!!!而当你真正进行物理地址空间的访问的时候,才执行内存的相关管理算法,帮你申请内存,构建页表映射关系(是由OS自动帮你完成的,用户包括进程完全0感知),然后在让你进行内存的访问。这种延迟分配的策略,来提高整机的效率,几乎内存的有效使用是100%的。这也就是**缺页中断技术。**也就是说,你申请空间,系统已经给你分配了虚拟地址空间,但还没有给你分配物理地址,这种技术叫做缺页中断技术。

3.因为在物理内存上,理论可以任意位置加载,所以物理内存中几乎所有数据和代码都是乱序的。
但是,因为页表的存在,它可以将页表中的虚拟地址和物理地址进行映射,那么可见在进程的视角下,所有的内存分布,都可以是有序的。
地址空间加页表的存在可以将内存分布有序化。
地址空间是操作系统给进程画的大饼。进程要访问物理内存中的数据和代码,可能此时并不在物理内存中。同样的也可以让不同的进程映射不同的物理内存区域,是不是很容易做到,进程独立性的实现。(进程的独立性可以通过地址空间+页表实现)
因为地址空间的存在,每一个进程都认为自己拥有4GB(32)空间,并且各个区域都是有序的,进而可以通过页表映射到物理内存不同区域,来实现进程的独立性。每一个进程都不知道,也不需要知道其他进程的存在。

4.理解什么是挂起?

我们将我们的代码和数据加载到内存中,加载本质是创建进程,那么是不是非得立马把所有的程序的代码和数据加载到内存中,并创建内核数据结构和建立相关映射关系?答案是否定的。
在最极端的情况下,甚至只有内核结构(task_struct结构体、地址空间、页表,)被创建出来了,映射关系一个都没有。
此时进程的状态就叫做新建状态。当真正调度这个进程的时候,才将进程的代码和数据加载到内存中,设置好映射关系。

理论上,可以实现对进程的分批加载,那是不是可以分批换出呢?当然可以。甚至,这个进程短时间内不会被执行,比如正在等待某种非CPU资源,阻塞了,进程的代码和数据被换出,此时的状态叫做挂起!!!
我们知道页表映射的时候,可不仅仅是内存,磁盘中的位置也是可以映射的嗷,所以在执行换出操作时,不一定需要将内存中数据刷新到磁盘中,可以直接释放掉,只需要将页表的映射关系中的位置改到磁盘中对应的数据位置即可。

今天就到这里吧,我们下次再见!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值