《一 》怎么执行程序(如何把程序加载到内存上
首先内存需要的是数据和指令(机器语言)但是程序是高级语言,
1:先通过编译链接生成.exe文件(.exe文件在磁盘中存储,且.exe文件中是机器语言)
2:.exe文件通过mmap函数映射到虚拟内存上
3:再通过分段分页机制把需要的指令和数据加载到内存
4:把main函数的入口地址写入到下一行指令寄存器中
《二》编译链接的过程
预处理:
将所有的”#define”删除,并且展开所有的宏定义.
处理所有的条件编译指令,比如:”#if”
处理”#include”预编译指令,将包含的文件插入到该预编译指令的位置(拷贝一份),该过程是递归的可能会重复包含.
删除所有的注释
添加行号和文件名标识
保留所有的#pragma编译器指令
编译:生成.s文件(汇编代码文件)
词法分析 语法分析 语义分析 代码优化
汇编:生成.o文件,它是不可执行的.
将汇编代码转换成机器可以执行的 指令.
链接:文件格式 linux(elf)windows(pf)
合并段和符号表:(链接错误一般都发生在符号表中,它只关心全局符号)相同的段进行合并
符号分析:在符号引用的地方找到符号定义的地方,处理外部引用的符号(进行替换) (把虚拟(*UND*)的数据和地址变为真实的数据和地址)
分配地址内存空间
符号的重定位(在指令段中发生)
《三》虚拟地址空间大小
大小:4G(32位操作系统) 用户空间3G 内核空间1G
堆和栈的区别:
堆: 1:手动开辟手动释放 2:开辟的空间不连续 3:从低地址向高地址延伸 4:剩余的大小就是堆的大小
栈: 1:系统开辟系统释放 2:开辟的空间是连续的 3:从高地址向低地址延伸 4:大小不到1M (用递归的方法验证,如下图)
#include<stdio.h>
int i=1;
void fun()
{
char arr[1024]; //1k
printf("%d ",i);
i++;
fun();
}
void main()
{
fun();
}
ELF 文件一般包含 一下几个代码段 :在linux中 Readelf -h main.o 查看(elfheader)
file header:字段里存放了描述整个文件的基本属性信息的内容,如程序入口地址,其他各段信息(偏移量和范围)
rodata字段 :是存放只读数据
common : 存放注释的
data段:存放已初始化且初始化不为0的全局变量的一块内存区域。数据段属于静态内存分配。(初始化后的非const的全局变量变量或者局部static变量。)
bss段:存放未初始化的全局变量的一块内存区域且初始化为0的数据, BSS段属于静态内存分配(未初始化后的非const全局变量和局部static变量)
.text段:通常是指用来存放程序执行代码的一块内存区域。这部分区域的大小在程序运行前就已经确定,并且内存区域通常属于只读, 某些架构也允许代码段为可写,即允许修改程序。在代码段中,也有可能包含一些只读的常数变量,例如字符串常量等。(主要是编译后的源码指令,是只读字段。)
扩展 : 全局的未初始化变量存在于.bss段中,具体体现为一个占位符;全局的已初始化变量存于.data段中;而函数内的自动变量都在栈上分配空间。.bss是不占用.exe文件空间的,其内容由操作系统初始化(清零);而.data却需要占用,其内容由程序初始化,因此造成了上述情况。
.bss段和.data段的区别:
bss段(未手动初始化的数据)并不给该段的数据分配空间,只是记录数据所需空间的大小。
data(已手动初始化的数据)段则为数据分配空间,数据保存在目标文件中。 数据段包含经过初始化的全局变量以及它们的值。BSS段的大小从可执行文件中得到 ,然后链接器得到这个大小的内存块,紧跟在数据段后面。当这个内存区进入程序的地址空间后全部清零。包含数据段和BSS段的整个区段此时通常称为数据区。
局部变量都是指令吗? 局部变量在什么时候开辟空间?
文件中不存在.bss段 从elfheader中的sectiion headers中提取信息
在用的时候开辟空间 指令都存在在text段.用的时候开辟空间
Bss段到底节省了什么空间 ?
BSS段节省了文件空间
全局变量分为强符号和弱符号?
强符号:已初始化的符号
弱符号:未初始化的符号
两个强符号编译报错(重定义) 一强一弱取强符号的地址(弱符号暂时放在com块中,连接后在.bss段) 两个弱符号(和编译器有关 1,报错 2,就近原则)
外部引用的变量都放在哪里?
外部引用的变量在编译是放在*UND*中(因为编译是文件单独编译 此文件中并不知道外部变量的地址所以暂时放在*UND*中)连接时会找到它的地址
外部引用的函数?