从内存的角度详细的分析C语言中的函数调用过程:
首先写一个测试用的代码:
#include
int add(int x, int y)
{
int z = 0;
z = x + y;
return z;
}
int main()
{
int a = 1, b = 2;
int c = 0;
c = add(a, b);
return 0;
}
这是一个简单的的求和函数。
其次,让我们确定一下,程序是从哪里开始运行的:
调试程序,按一下F10(博主用的VS2013),
进入main函数:
然后进调试--->窗口--->调用堆栈(用来显示函数的调用关系)。
发现正在调用main这个函数,但现在我想知道是谁在调用main函数,F10一路走到return 0,接着换F11(逐语句调试),然后会发现,main函数返回后,我们来到了这里:
再看看此时的调用堆栈:
直接来看,现在运行的函数是__tmainCRTStartup(),这个函数又被mainCRTStratup()调用,而我们刚刚是从main()函数返回来的,所以,main()函数是由__tmainCRTStartup()这个函数调用的。
了解了main()函数是被谁调用后,我们可以进一步分析这其中的细节了!
现在重新F10进入调试,到这一步:
进入main()函数后还没有执行任何一条语句,我们 右击-->转到反汇编:
看到了汇编语言的代码,图中的ebp和esp是什么东西呢?我们知道,调用函数的时候操作系统要给这个函数分配一段内存空间,之前又说了main()函数是由—__tCRTStartup()函数调用的,所以请看:
mainCRTStratup()函数调用__tmainCRTStra()函数的时候就会从栈上为__tmainCRTStra()分配类似图中这么一块空间,把这块空间叫做栈帧。我们知道栈是由高地址向低地址扩展的。其中ebp叫做栈底指针,esp叫做栈顶指针(当然也有其它叫法)。ebp,esp本身是一个寄存器,其中存放了地址时,我们就称之为指针!
现在再来看汇编程序:
按一下F10执行第一条语句,箭头指向下一条语句,变成这样:
(和我们在外边的调试是一样的)这句 push ebp 就是将ebp中的值进行压栈,而此时ebp存放的是系统分给__tmainCRTStartup()函数的空间的起始地址。因为我们现在要调用main()函数了,所以当然要先把__tmainCRTStartup()函数的运行状态保存下来,这样main()函数才能返回的时候才能找得到!push是在栈顶进行的,所以,push之后,esp要向上移动:
刚刚说了,栈是由高地址向低地址扩展的,所以这个push操作应该是对esp进行一个减操作,具体见了多少,可以在内存里查一查:
先看一下push之前esp的的值:
esp的当前值为0x00ABFA30,代表它指向0x00ABFA30这个地址代表的内存。
再看一下push之后esp的值发生了什么变化:
变成了0x00ABFA2C,差了4个字节,就是放进去的地址的大小。
然后继续执行下一条语句: mov ebp,esp
即把esp的值赋给ebp,这样,ebp也就指向了现在esp的位置,如下图:
接着又执行语句:sub esp,0E4h
即将esp的值减去E4h,所以esp向上移动了E4h个位置(相当于申请了这么大的一块空间),新申请的这块空间就给main()用了。如下:
接下来紧接着三条push语句将后面要用到的寄存器中原来的值存储起来,等我们借用完寄存器后再给人家pop回去,不管它,这里esp再向上移动三次。
(ps:图片太大,所以只截了当前要用到的)
紧接着的四条语句共同完成一个任务,就是将图中最大长方形区域初始化为0CCCCCCCh(你经常看到的:烫烫烫烫......)
第一句:lea edi,[ebp-0E4h]
就是将ebp减去E4h的值赋给edi,这个E4h是不是很眼熟呢?它就是我们上一步分配给main()的空间的大小,即edi指向了3次push之前的esp的位置;
第二句:mov ecx,39h
把39h放在ecx中(充当了计数器)
第三句:mov eax,0CCCCCCCCh
把要初始化的数据写入eax
最后一句:rep stos dword ptr es:[edi]
循环的从低地址(ebp-0E4h)向高地址(ebp)写0CCCCCCCCh,循环了39h次!
我们在执行之前转到内存中看一下:
先查找ebp:
(我往下拖了一点,左下角的光标处的地址就是ebp当前值0z00ABFA2C)
四条语句执行后:
相应的位置已经被初始化为0CCCCCCCh,其它部分是乱码(此时ebp值为0x00ABFA2C,它之上的一段空间是分配给main()的)
程序继续往下执行:
mov dword ptr [ebp-8],1 在ebp-8h的位置放一个1,
mov dword ptr [ebp-14h], 2 在ebp-14h的位置放一个2
即分别创建了a,b两个变量,如图:
接着创建c:
此时我们的内存分配变成了这样:
然后到了这里,调用add()准备工作:
mov eax,dword ptr [ebp-14h] 是把ebp-14h位置的值放入eax(此时ebp-14h的值是我们的变量b的值),然后:push eax , 即eax压栈;
同理,mov ecx,dword ptr [ebp-8] 把ebp-8位置的值放入ecx,然后ecx压栈。如下(传递形参给x和y):
程序到这:
在汇编里我们用call调用一个函数(_add是一个标号,它代表了一个地址,是add()函数的首地址),而call在执行的同时,会把它下一条指令的地址(就是图中的00D1450)push到main()的栈桢中去,以便add()执行完后返回的时候还可以找到程序当初执行到了哪里,然后接着执行。
为了证明这一点,我们先查看一下esp所指向内存的值:
然后F11跟进去到这里:
再查看esp所指内存:
可以看到esp的位置发生了改变,此时内存中的值 50 14 0d 00 是不是很像刚刚的call语句下一条指令地址呢?对它就是00 0d 14 50 的小端字节序,这里不再解释小端字节序,只需理解它是内存中字节存储的一种方式,有兴趣的可以查看:http://blog.csdn.net/qq_33724710/article/details/51056542
栈桢分配图变成了这样:
接着F11执行刚刚的jmp语句:
历尽千辛万苦终于进入add()!现在贴出来的这几句代码就和我们刚刚进入main()函数的语句大同小异了。
push ebp //ebp压栈
mov ebp,esp //ebp指向esp所指
sub esp,0CCh //esp - 0CCh, 开辟了新的栈桢
push ebx //3个push,照旧不管它
push esi
push edi
lea edi,[ebp-0CCh] //初始化烫烫烫烫......
mov ecx,33h
mov eax,0CCCCCCCCh
rep stos dword ptr es:[edi]
然后到这里:
给ebp-8处放了个0,就是创建z啦!
再接着到这里:
eax,dword ptr [ebp+8] //注意是加了8,取出的是我们之前传递进来的形参值1,放到eax
add eax,dword ptr [ebp+0Ch] //取epb+0Ch,取出的是我们之前传递进来的形参值2,加到eax
dword ptr [ebp-8],eax //再把求和后的值eax赋给epb - 8的位置,就是z喽!
程序执行到这,准备返回main()了:
因为z是个临时变量,出了add()就会销毁,要返回z的值,就要把它的值放进寄存器:
mov eax,dword ptr [ebp-8] //epb-8找到的就是z,赋给eax
pop edi //连续三个pop,之前连续三个push我们没管它,现在仍然不管它
pop esi
pop ebx
3次pop后,esp高地址处移动了3个单位:
虽然esp上边的空间还在,但是已经不属于当前的栈桢了,相当于释放掉了!
然后:
mov esp,ebp //esp指向当前ebp
pop ebp //main()起始地址赋给给ebp,esp往高地址处移动一次
所以变成这样:
最后执行ret,程序回到这里:
看见了没,ret指令自动取出了call的下一条语句地址(ret自动执行了pop,esp又往高地址处移动了一次)赋给了PC(PC总是指向下一条要执行的语句)。
接着的add esp,8 使esp继续往高地址方向移动,并跳过1,2两个参数,如下:
mov dword ptr [ebp-20h],eax //还记得eax吗,当初我们把求和的结果,即 z 的值赋给了它,ebp-20h依然是当初的c
现在,我们要的结果已经赋给 c 了!
xor eax,eax //eax没用了,异或eax,清零
pop edi //又是连续3个pop
pop esi
pop ebx
add esp,0E4h //oE4h,当出开辟的main()栈桢的大小,现在释放掉
cmp ebp,esp //不管它
call 000D113B //不管它
mov esp,ebp //释放main()栈桢
pop ebp //ebp指向__tmainCRTStartup()起始地址,esp下移
ret //返回到__tmainCRTStartup()
__tmainCRTStartup()和mainCRTStart()里边的过程就不在分析了!