非典型性C语言教程-1.1 变量

语言最本质的东西就是函数和变量。 函数和变量在编译完成后会有实际的数据在那里,也就是运行时载入内存的时候会占用内存。现在先说变量。

变量按其存储在内存中的位置分有3种, 全局/静态的, 局部/栈(stack)的,和堆(heap)变量。这3个概念其实牵扯到OS对于进程内存的管理方式。

现 代的OS对于一个进程一般采用线性的内存,即对于32位系统而言一个进程的地址空间一般是从0x00000000开始一直到0xFFFFFFFF,很早在 8086机器上引入的分段模式已经不在使用了,数据和代码都放在一起。代码就对应于C语言的函数,全局静态的数据对应与全局/静态变量。除此之外OS载入 进程后还会动态的生成两种内存结构:一种是栈stack,一种是堆heap。由于有时stack的中文翻译也写成 堆栈,所以后面一律使用stack和heap来描述两者。Stack用于函数调用和返回,以及局部变量,heap对应与用malloc函数分配的内存空 间。

全局变量编译完成后在可执行文件中占用一个段,一般称为.data段。进程载入的时候,全局变量也跟着载入内存,在内存中占用固定的 地址。所有使用全局变量的地方最后都变成对固定内存地址的引用。堆变量一般由指针应用,由malloc分配。这种变量一旦分配也对应与内存中的固定地址, 但是要记得分配了就要释放,否则就是著名的内存泄漏错误(memory leak)。如果你的程序在结束时不会因为消耗过多的内存而引发系统响应变慢这样的问题,那么不释放也没有关系,程序结束时,malloc分配的内存会由 OS释放掉。

稍微麻烦一点的是局部变量。局部变量是在函数内部定义的,函数被调用的时候会移动栈顶,形成函数这次执行需要的active frame。下面都以x86机器为例。如图在x86上sp寄存器指向栈顶
bp 一般用于引用栈的内部。一个函数调用一般是这样:首先把函数的参数压入堆栈,然后调用call,call指令会自动压入返回地址。call之后就转到函数 的代码了,函数的头几条指令一般都是移动Sp和BP在栈中开辟一块内存放函数需要的局部变量。然后后面对局部变量的引用都被编译成相对bp的地址,[bp +10]这样的地址。这样处理局部变量的目的就是为了让函数可以重入。在单线程下,不可能有同时运行的代码调用同一个函数,所以重入可以等价与递归,函数 自己调用自己。

最早出现的高级语言Forturn是不支持递归的,当时Forturn对于局部变量的处理和全局变量一样,如果函数自己调用自己,就不能分清楚引用的局部变量到底是哪一个。后来改成了stack的形式。举个例子:

int ff(int n)
{
int ret=1;
if(n==0 || n==1)
ret=1;
else
{
ret=ff(n-1)*n;
}
return ret;
}

这是一个简单的计算阶乘的递归实现的例子。现在假设局部变量ret有固定的地址,那么递归层次中下一层的调用会修改ret的值,使得调用它的函数得不到正确的ret值。我们实际看一下VC8下这段程序产生的代码。

int ff(int n)
{
00411390 push ebp
00411391 mov ebp,esp
00411393 sub esp,0CCh
00411399 push ebx
0041139A push esi
0041139B push edi
0041139C lea edi,[ebp-0CCh]
004113A2 mov ecx,33h
004113A7 mov eax,0CCCCCCCCh
004113AC rep stos dword ptr es:[edi]
int ret=1;
004113AE mov dword ptr [ret],1
if(n==0 || n==1)
004113B5 cmp dword ptr [n],0
004113B9 je ff+31h (4113C1h)
004113BB cmp dword ptr [n],1
004113BF jne ff+3Ah (4113CAh)
ret=1;
004113C1 mov dword ptr [ret],1
else
004113C8 jmp ff+50h (4113E0h)
{
ret=ff(n-1)*n;
004113CA mov eax,dword ptr [n]
004113CD sub eax,1
004113D0 push eax
004113D1 call ff (411145h)
004113D6 add esp,4
004113D9 imul eax,dword ptr [n]
004113DD mov dword ptr [ret],eax
}
return ret;
004113E0 mov eax,dword ptr [ret]
}
004113E3 pop edi
004113E4 pop esi
004113E5 pop ebx
004113E6 add esp,0CCh
004113EC cmp ebp,esp
004113EE call @ILT+300(__RTC_CheckEsp) (411131h)
004113F3 mov esp,ebp
004113F5 pop ebp
004113F6 ret
也 许你不知道如何在VC8下显示反汇编,后面会专门讨论VC8。VC8的反汇编代码已经做了优化,比如局部变量ret的地址表示成了[ret] (004113AE)实际上它应该是类似与[bp+xx]这样的地址。其次VC8的调试版本里面所有的没有初始化的变量都用0xcc来填充,而不是 0x00。 我个人猜想之所有用0xcc来填充是因为0xcc在x86机器上恰好是int 3h指令的机器码,而int 3h指令就是调试中断的指令。可能你不懂汇编,这里只简单的说说。函数调用的开始几行汇编代码都类似,就是完成了建立局部变量空间,也就是active frame的过程,主要操作的是sp和bp寄存器。看一看算ff(2)时的系统内存:
0x0012FBC7 cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc 01 00 00 00 f3 13 41 00 c8 fc 12 00 d6 13 41 00 01 00 00 00
0x0012FBF0 ac fd 12 00 9c f9 84 07 00 e0 fd 7f cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc
此时ESP寄存器是0x0012FB9E, 表示栈顶, 栈的第一个元素是01 00 00 00, 即ret=1,后面的一个32位数是00 d6 13 41 即0x4113d600,这个是返回地址。后一个01 00 00 00表示的是函数的参数。调试的时候VC8在栈中插入了大量的cc, 这个是为了VC8的-GS选项,即栈检查,防止缓冲区溢出错误。

可以看到函数返回的时候有退栈的动作(004113E6 add esp,0CCh ),就是释放了局部变量所占用的栈空间,于是局部变量的生存就结束了。

写程序的时候使用那种变量要了解这种变量的特性,和生存周期。比如返回局部变量的地址就是一种典型的错误,局部变量占用的内存,在函数结束之后就还给系统了,返回局部变量的地址在函数完成之后使用,属于未定义的行为。 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值