非典型性C语言教程-1.1 变量

最新推荐文章于 2025-08-19 17:20:19 发布

原创最新推荐文章于 2025-08-19 17:20:19 发布 · 797 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言 #c #汇编 #leak #os #x86

本文探讨了函数和变量在内存中的存储方式及其管理机制，包括全局/静态变量、局部/栈变量及堆变量的不同特点，并通过递归函数实例详细解析了栈变量的工作原理。

语言最本质的东西就是函数和变量。函数和变量在编译完成后会有实际的数据在那里，也就是运行时载入内存的时候会占用内存。现在先说变量。

变量按其存储在内存中的位置分有3种，全局/静态的，局部/栈（stack）的，和堆(heap)变量。这3个概念其实牵扯到OS对于进程内存的管理方式。

现代的OS对于一个进程一般采用线性的内存，即对于32位系统而言一个进程的地址空间一般是从0x00000000开始一直到0xFFFFFFFF，很早在 8086机器上引入的分段模式已经不在使用了，数据和代码都放在一起。代码就对应于C语言的函数，全局静态的数据对应与全局/静态变量。除此之外OS载入进程后还会动态的生成两种内存结构：一种是栈stack，一种是堆heap。由于有时stack的中文翻译也写成堆栈，所以后面一律使用stack和heap来描述两者。Stack用于函数调用和返回，以及局部变量，heap对应与用malloc函数分配的内存空间。

全局变量编译完成后在可执行文件中占用一个段，一般称为.data段。进程载入的时候，全局变量也跟着载入内存，在内存中占用固定的地址。所有使用全局变量的地方最后都变成对固定内存地址的引用。堆变量一般由指针应用，由malloc分配。这种变量一旦分配也对应与内存中的固定地址，但是要记得分配了就要释放，否则就是著名的内存泄漏错误(memory leak)。如果你的程序在结束时不会因为消耗过多的内存而引发系统响应变慢这样的问题，那么不释放也没有关系，程序结束时，malloc分配的内存会由 OS释放掉。

稍微麻烦一点的是局部变量。局部变量是在函数内部定义的，函数被调用的时候会移动栈顶，形成函数这次执行需要的active frame。下面都以x86机器为例。如图在x86上sp寄存器指向栈顶

bp 一般用于引用栈的内部。一个函数调用一般是这样：首先把函数的参数压入堆栈，然后调用call，call指令会自动压入返回地址。call之后就转到函数的代码了，函数的头几条指令一般都是移动Sp和BP在栈中开辟一块内存放函数需要的局部变量。然后后面对局部变量的引用都被编译成相对bp的地址，[bp +10]这样的地址。这样处理局部变量的目的就是为了让函数可以重入。在单线程下，不可能有同时运行的代码调用同一个函数，所以重入可以等价与递归，函数自己调用自己。

最早出现的高级语言Forturn是不支持递归的，当时Forturn对于局部变量的处理和全局变量一样，如果函数自己调用自己，就不能分清楚引用的局部变量到底是哪一个。后来改成了stack的形式。举个例子：


int ff(int n)
{
 int ret=1;
 if(n==0 || n==1)
    ret=1;
 else
 {
     ret=ff(n-1)*n;
 }
 return ret;
}

这是一个简单的计算阶乘的递归实现的例子。现在假设局部变量ret有固定的地址，那么递归层次中下一层的调用会修改ret的值，使得调用它的函数得不到正确的ret值。我们实际看一下VC8下这段程序产生的代码。


int ff(int n)
{
00411390  push        ebp 
00411391  mov         ebp,esp
00411393  sub         esp,0CCh
00411399  push        ebx 
0041139A  push        esi 
0041139B  push        edi 
0041139C  lea         edi,[ebp-0CCh]
004113A2  mov         ecx,33h
004113A7  mov         eax,0CCCCCCCCh
004113AC  rep stos    dword ptr es:[edi]
   int ret=1;
004113AE  mov         dword ptr [ret],1
   if(n==0 || n==1)
004113B5  cmp         dword ptr [n],0
004113B9  je          ff+31h (4113C1h)
004113BB  cmp         dword ptr [n],1
004113BF  jne         ff+3Ah (4113CAh)
      ret=1;
004113C1  mov         dword ptr [ret],1
   else
004113C8  jmp         ff+50h (4113E0h)
   {
       ret=ff(n-1)*n;
004113CA  mov         eax,dword ptr [n]
004113CD  sub         eax,1
004113D0  push        eax 
004113D1  call        ff (411145h)
004113D6  add         esp,4
004113D9  imul        eax,dword ptr [n]
004113DD  mov         dword ptr [ret],eax
   }
    return ret;
004113E0  mov         eax,dword ptr [ret]
}
004113E3  pop         edi 
004113E4  pop         esi 
004113E5  pop         ebx 
004113E6  add         esp,0CCh
004113EC  cmp         ebp,esp
004113EE  call        @ILT+300(__RTC_CheckEsp) (411131h)
004113F3  mov         esp,ebp
004113F5  pop         ebp 
004113F6  ret

也许你不知道如何在VC8下显示反汇编，后面会专门讨论VC8。VC8的反汇编代码已经做了优化，比如局部变量ret的地址表示成了[ret] （004113AE）实际上它应该是类似与[bp+xx]这样的地址。其次VC8的调试版本里面所有的没有初始化的变量都用0xcc来填充，而不是 0x00。我个人猜想之所有用0xcc来填充是因为0xcc在x86机器上恰好是int 3h指令的机器码，而int 3h指令就是调试中断的指令。可能你不懂汇编，这里只简单的说说。函数调用的开始几行汇编代码都类似，就是完成了建立局部变量空间，也就是active frame的过程，主要操作的是sp和bp寄存器。看一看算ff(2)时的系统内存：
0x0012FBC7 cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc 01 00 00 00 f3 13 41 00 c8 fc 12 00 d6 13 41 00 01 00 00 00
0x0012FBF0 ac fd 12 00 9c f9 84 07 00 e0 fd 7f cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc cc
此时ESP寄存器是0x0012FB9E，表示栈顶，栈的第一个元素是01 00 00 00，即ret=1，后面的一个32位数是00 d6 13 41 即0x4113d600，这个是返回地址。后一个01 00 00 00表示的是函数的参数。调试的时候VC8在栈中插入了大量的cc，这个是为了VC8的-GS选项，即栈检查，防止缓冲区溢出错误。

可以看到函数返回的时候有退栈的动作（004113E6 add esp,0CCh ），就是释放了局部变量所占用的栈空间，于是局部变量的生存就结束了。

写程序的时候使用那种变量要了解这种变量的特性，和生存周期。比如返回局部变量的地址就是一种典型的错误，局部变量占用的内存，在函数结束之后就还给系统了，返回局部变量的地址在函数完成之后使用，属于未定义的行为。