1、数组越界引起的死循环问题:
#include "stdafx.h"
int main(int argc, char* argv[])
{
int i = 0;
int arr[3] = {0};
for(i = 0; i<=3; i++){
arr[i] = 0;
printf("hello world\n");
}
return 0;
}
此程序的问题是:死循环。很多人在C语言的学习瓶颈处/进阶处时都会遇到这样一个问题,因为从不甚关心内存到关系内存布局的过程,该问题充分的说明了数组内存越界的问题严重性,即使我们有时候使用数组越界也不会有任何错误。但是该问题的出现让每一个学习C语言的人对于内存布局产生了敬畏与兴趣。
对应main()的汇编指令如下所示:
main:
00401010 push ebp
00401011 mov ebp,esp
00401013 sub esp,50h
00401016 push ebx
00401017 push esi
00401018 push edi
00401019 lea edi,[ebp-50h]
0040101C mov ecx,14h
00401021 mov eax,0CCCCCCCCh
00401026 rep stos dword ptr [edi]
;有效功能指令
;i = 0
00401028 mov dword ptr [ebp-4],0
;arr[2] = arr[1] = arr[0] = 0
0040102F mov dword ptr [ebp-10h],0
00401036 xor eax,eax
00401038 mov dword ptr [ebp-0Ch],eax
0040103B mov dword ptr [ebp-8],eax
;循环开始
;i = 0,即for()的表达式1
0040103E mov dword ptr [ebp-4],0
;跳转到比较i<=3处,只有循环第一次才执行
00401045 jmp main+40h (00401050)
;从第二次循环便从此处开始执行
;给i自加,即执行for()的表达式3
00401047 mov ecx,dword ptr [ebp-4]
0040104A add ecx,1
0040104D mov dword ptr [ebp-4],ecx
;比较i和3,即for()的表达式2
00401050 cmp dword ptr [ebp-4],3
;大于3则直接结束
00401054 jg main+60h (00401070)
;否则(小于等于)则并打印hello world
00401056 mov edx,dword ptr [ebp-4]
00401059 mov dword ptr [ebp+edx*4-10h],0
;打印“hello world”
00401061 push offset string "hello world\n" (0042201c)
00401066 call printf (004010a0)
0040106B add esp,4 ;外平栈
;循环一次完毕,跳转到for()的表达式3执行,不需回到for()的表达式1执行
0040106E jmp main+37h (00401047)
00401070 xor eax,eax
00401072 pop edi
00401073 pop esi
00401074 pop ebx
00401075 add esp,50h
00401078 cmp ebp,esp
0040107A call __chkesp (00401120)
0040107F mov esp,ebp
00401081 pop ebp
00401082 ret
我们根据反汇编结果,画出main函数的部分堆栈图如下所示:
由于变量i和数组arr都属于局部变量,二者内存又是相接的,所以造成了所谓的arr[3]的地址与i的地址是相同的,所以修改arr[3]就是修改i,每当i增加到3时,由于arr越界访问,导致i的值被重新改为0,也就致使了死循环的产生。
2、数组越界引起的函数返回与调用问题:
第二道题目如下:
void print()
{
printf("Hello World!\n");
getchar();
}
int main(void)
{
int arr[3] = {1,2,3};
arr[4] = (int)print;
return 0;
}
该题目中,从C语言语句中看,虽然我们没有调用fun()函数,但是运行后,会打印“Hello World!\n”,该问题的解解决不像第一题那样。第一道题其实不用反汇编的知识,只需要知道一点函数栈的概念就能基本解决。但是第二道题需要明白函数调用时的返回地址是如何存储,以及返回时eip、esp、ebp的寄存器具体是如何变化的才能解决。反汇编的部分代码如下:
main:
0040D730 push ebp
0040D731 mov ebp,esp
0040D733 sub esp,4Ch
0040D736 push ebx
0040D737 push esi
0040D738 push edi
0040D739 lea edi,[ebp-4Ch]
0040D73C mov ecx,13h
0040D741 mov eax,0CCCCCCCCh
0040D746 rep stos dword ptr [edi]
0040D748 mov dword ptr [ebp-0Ch],1
0040D74F mov dword ptr [ebp-8],2
0040D756 mov dword ptr [ebp-4],3
;将dword ptr ss:[ebp-4]修改为0040100a
0040D75D mov dword ptr [ebp+4],offset @ILT+5(print) (0040100a)
0040D764 xor eax,eax
0040D766 pop edi
0040D767 pop esi
0040D768 pop ebx
0040D769 mov esp,ebp
0040D76B pop ebp
0040D76C ret
00401005 jmp main (0040d730)
;CPU执行ret后直接到该处开始执行指令,跳转到print处执行
0040100A jmp print (00401010)
0040100F int 3
print:
00401010 push ebp
00401011 mov ebp,esp
00401013 sub esp,44h
00401016 push ebx
00401017 push esi
00401018 push edi
00401019 lea edi,[ebp-44h]
0040101C mov ecx,11h
00401021 mov eax,0CCCCCCCCh
00401026 rep stos dword ptr [edi]
00401028 push offset string "Hello World!\n" (0042201c)
0040102D call printf (004010a0)
00401032 add esp,4
00401035 mov eax,[__iob+4 (00424a44)]
0040103A sub eax,1
0040103D mov [__iob+4 (00424a44)],eax
00401042 cmp dword ptr [__iob+4 (00424a44)],0
00401049 jl print+5Ch (0040106c)
0040104B mov ecx,dword ptr [__iob (00424a40)]
00401051 movsx edx,byte ptr [ecx]
00401054 and edx,0FFh
0040105A mov dword ptr [ebp-4],edx
0040105D mov eax,[__iob (00424a40)]
00401062 add eax,1
00401065 mov [__iob (00424a40)],eax
0040106A jmp print+6Ch (0040107c)
0040106C push offset __iob (00424a40)
00401071 call _filbuf (0040dbd0)
00401076 add esp,4
00401079 mov dword ptr [ebp-4],eax
0040107C pop edi
0040107D pop esi
0040107E pop ebx
0040107F add esp,44h
00401082 cmp ebp,esp
00401084 call __chkesp (00401120)
00401089 mov esp,ebp
0040108B pop ebp
;结束后不能返回到mainCTRStartup()中去
0040108C ret
我们根据反汇编代码画出其main函数的部分堆栈图如下:
由于arr[4]本就已经超出数组界限,而arr[4] = (int)print;修改了main函数执行完毕后的返回地址,根据堆栈图可知,修改的值即mainCTRStartup()函数中call 00401005指令的下一条指令的地址。而main()结束后返回时,ret时将arr[4]即此时的dwrod ptr ss:[esp]出栈到eip(pop eip)中。而dwrod ptr ss:[esp]中被修改的值0X0040100A是jmp print (00401010)指令的地址,则CPU下一条要执行的指令为jmp print (00401010),而jmp print则导致print函数开始被执行,打印了“Hello World!\n”。但是由于返回地址被修改,且print在返回时ret指令从栈顶获取的地址不是mainCTRStartup()的下一条指令的地址,导致不能正常返回,程序也不能正常结束。