C/C++ 内存管理与预处理、结构体

最新推荐文章于 2023-03-14 10:37:19 发布

落寞无缘

最新推荐文章于 2023-03-14 10:37:19 发布

阅读量339

点赞数

文章标签： C

本文链接：https://blog.csdn.net/Zz22333/article/details/79207676

版权

1.内存分配

一个由c/C++编译的程序占用的内存分为以下几个部分

a.全局区（静态区）（static）—，全局变量和静态变量的存储是放在一块的，初始化的全局变量和静态变量在一块区域，未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。 - 程序结束后有系统释放

b.文字常量区 —常量字符串就是放在这里的。程序结束后由系统释放

c.程序代码区—存放函数体的二进制代码。

d.栈区（stack）— 由编译器自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中的栈。

e.堆区（heap） — 一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。它与数据结构中的堆是两回事

例子程序
这是转载的，写的非常详细
//main.cpp
int a = 0; 全局初始化区
char *p1; 全局未初始化区
main()
{
int b; 栈
char s[] = "abc"; 栈
char *p2; 栈
char *p3 = "123456"; 123456/0在常量区，p3在栈上。
static int c =0；全局（静态）初始化区
p1 = (char *)malloc(10);
p2 = (char *)malloc(20);
分配得来得10和20字节的区域就在堆区。
strcpy(p1, "123456"); 123456/0放在常量区，编译器可能会将它与p3所指向的"123456"优化成一个地方。
}

2.什么是栈

栈是为执行线程留出的内存空间。当函数被调用的时候，栈顶为局部变量和一些 bookkeeping 数据预留块。当函数执行完毕，块就没有用了，可能在下次的函数调用的时候再被使用。栈通常用后进先出（LIFO）的方式预留空间；因此最近的保留块（reserved block）通常最先被释放。这么做可以使跟踪堆栈变的简单；从栈中释放块（free block）只不过是指针的偏移而已。

3.什么是堆

堆（heap）是为动态分配预留的内存空间。和栈不一样，从堆上分配和重新分配块没有固定模式；你可以在任何时候分配和释放它。这样使得跟踪哪部分堆已经被分配和被释放变的异常复杂；有许多定制的堆分配策略用来为不同的使用模式下调整堆的性能。每一个线程都有一个栈，但是每一个应用程序通常都只有一个堆（尽管为不同类型分配内存使用多个堆的情况也是有的）。

4.堆和栈的区别

a.申请方式

(1)栈（satck）:由系统自动分配。例如，声明在函数中一个局部变量int b;系统自动在栈中为b开辟空间。

(2)堆（heap）:需程序员自己申请（调用malloc,realloc,calloc）,并指明大小，并由程序员进行释放。容易产生memory leak.
eg:char p;
p = (char *)malloc(sizeof(char));

但是，p本身是在栈中。

b.申请大小的限制

（1）栈：在windows下栈是向底地址扩展的数据结构，是一块连续的内存区域(它的生长方向与内存的生长方向相反)。栈的大小是固定的。如果申请的空间超过栈的剩余空间时，将提示overflow。

（2）堆：堆是高地址扩展的数据结构（它的生长方向与内存的生长方向相同），是不连续的内存区域。这是由于系统使用链表来存储空闲内存地址的，自然是不连续的，而链表的遍历方向是由底地址向高地址。堆的大小受限于计算机系统中有效的虚拟内存。

c.系统响应：

（1）栈：只要栈的空间大于所申请空间，系统将为程序提供内存，否则将报异常提示栈溢出。

（2）堆：首先应该知道操作系统有一个记录空闲内存地址的链表，但系统收到程序的申请时，会遍历该链表，寻找第一个空间大于所申请空间的堆结点，然后将该结点从空闲链表中删除，并将该结点的空间分配给程序，另外，对于大多数系统，会在这块内存空间中的首地址处记录本次分配的大小，这样，代码中的free语句才能正确的释放本内存空间。另外，找到的堆结点的大小不一定正好等于申请的大小，系统会自动的将多余的那部分重新放入空闲链表中。
说明：对于堆来讲，对于堆来讲，频繁的new/delete势必会造成内存空间的不连续，从而造成大量的碎片，使程序效率降低。对于栈来讲，则不会存在这个问题，
d.申请效率
（1）栈由系统自动分配，速度快。但程序员是无法控制的
（2）堆是由malloc分配的内存，一般速度比较慢，而且容易产生碎片，不过用起来最方便。
e.堆和栈中的存储内容

（1）栈：在函数调用时，第一个进栈的主函数中后的下一条语句的地址，然后是函数的各个参数，参数是从右往左入栈的，然后是函数中的局部变量。注：静态变量是不入栈的。

当本次函数调用结束后，局部变量先出栈，然后是参数，最后栈顶指针指向最开始存的地址，也就是主函数中的下一条指令，程序由该点继续执行。

（2）堆：一般是在堆的头部用一个字节存放堆的大小。

f.存取效率

（1）堆：char *s1=”hellow tigerjibo”;是在编译是就确定的

（2）栈：char s1[]=”hellow tigerjibo”;是在运行时赋值的；用数组比用指针速度更快一些，指针在底层汇编中需要用edx寄存器中转一下，而数组在栈上读取。

补充：栈是机器系统提供的数据结构，计算机会在底层对栈提供支持：分配专门的寄存器存放栈的地址，压栈出栈都有专门的指令执行，这就决定了栈的效率比较高。堆则是C/C++函数库提供的，它的机制是很复杂的，例如为了分配一块内存，库函数会按照一定的算法（具体的算法可以参考数据结构/操作系统）在堆内存中搜索可用的足够大小的空间，如果没有足够大小的空间（可能是由于内存碎片太多），就有可能调用系统功能去增加程序数据段的内存空间，这样就有机会分到足够大小的内存，然后进行返回。显然，堆的效率比栈要低得多。

g.分配方式：

（1）堆都是动态分配的，没有静态分配的堆。

（2）栈有两种分配方式：静态分配和动态分配。静态分配是编译器完成的，比如局部变量的分配。动态分配由alloca函数进行分配，但是栈的动态分配和堆是不同的。它的动态分配是由编译器进行释放，无需手工实现。

5.野指针

“野指针”不是NULL指针，是未初始化或未清零的指针，他指向的内存地址不是程序员想要的。人们一般不会错用NULL指针，因为用if语句很容易判断。但是“野指针”是很危险的，if语句对它不起作用。野指针的成因主要有两种：

　　一、指针变量没有被初始化。任何指针变量刚被创建时不会自动成为NULL指针，它的缺省值是随机的，它会乱指一气。所以，指针变量在创建的同时应当被初始化，要么将指针设置为NULL，要么让它指向合法的内存。

　　二、指针p被free或者delete之后，没有置为NULL，让人误以为p是个合法的指针。free和delete只是把指针所指的内存给释放掉，但并没有把指针本身干掉。通常会用语句if (p != NULL)进行防错处理。但是，此时if语句起不到防错作用，因为即便p不是NULL指针，它也不指向合法的内存块。

注意：free释放的是指针指向的内存，不是指针！这点非常非常重要！指针是一个变量，只有程序结束时才被销毁。释放了内存空间后，原来指向这块空间的指针还是存在！只不过现在指针指向的内容的垃圾，是未定义的，所以说是垃圾。因此，前面我已经说过了，释放内存后把指针指向NULL，防止指针在后面不小心又被解引用了。

　　在使用指针的时候还要注意的问题：

　　a.不要返回指向栈内存的指针或引用，因为栈内存在函数结束时会被释放.

b.在使用指针进行内存操作前记得要先给指针分配一个动态内存。

6.内存泄漏

用动态存储分配函数动态开辟的空间，在使用完毕后未释放，结果导致一直占据该内存单元，不能被任何程序再次使用，直到程序结束。即所谓内存泄漏。注意：内存泄漏是指堆内存的泄漏。

简单的说就是申请了一块内存空间，使用完毕后没有释放掉。它的一般表现方式是程序运行时间越长，占用内存越多，最终用尽全部内存，整个系统崩溃。由程序申请的一块内存，且没有任何一个指针指向它，那么这块内存就泄露了。

7.段错误及处理方法

所谓的段错误就是指访问的内存超出了系统所给这个程序的内存空间，通常这个值是由gdtr来保存的，他是一个48位的寄存器，其中的32位是保存由它指向的gdt表，后13位保存相应于gdt的下标，最后3位包括了程序是否在内存中以及程序的在cpu中的运行级别,指向的gdt是由以64位为一个单位的表，在这张表中就保存着程序运行的代码段以及数据段的起始地址以及与此相应的段限和页面交换还有程序运行级别还有内存粒度等等的信息。一旦一个程序发生了越界访问，cpu就会产生相应的异常保护，于是segmentation fault就出现了。

处理方法

1）在程序内部的关键部位输出(printf)信息，那样可以跟踪段错误在代码中可能的位置
为了方便使用这种调试方法，可以用条件编译指令#ifdef DEBUG和#endif把printf函数给包含起来，编译的时候加上-DDEBUG参数就可以查看调试信息。反之，不加上该参数进行调试就可以。
2）用gdb来调试，在运行到段错误的地方，会自动停下来并显示出错的行和行号
这个应该是很常用的，如果需要用gdb调试，记得在编译的时候加上-g参数，用来显示调试信息,对于这个，网友在《段错误bug的调试》文章里创造性的使用这样的方法，使得我们在执行程序的时候就可以动态扑获段错误可能出现的位置：通过扑获SIGSEGV信号来触发系统调用gdb来输出调试信息。如果加上上面提到的条件编译，那我们就可以非常方便的进行段错误的调试拉。
3）还有一个catchsegv命令
通过查看帮助信息，可以看到
Catch segmentation faults in programs
这个东西就是用来扑获段错误的，它通过动态加载器（ld-linux.so）的预加载机制（PRELOAD）把一个事先写好的库（/lib/libSegFault.so）加载上，用于捕捉断错误的出错信息。

8.预处理的工作方式

预处理的行为是由指令控制的。这些指令是由#字符开头的一些命令。

#define指令定义了一个宏---用来代表其他东西的一个命令，通常是某一个类型的常量。预处理会通过将宏的名字和它的定义存储在一起来响应#define指令。当这个宏在后面的程序中使用到时，预处理器”扩展”了宏，将宏替换为它所定义的值。

#include指令告诉预处理器打开一个特定的文件，将它的内容作为正在编译的文件的一部分“包含”进来。例如：下面这行命令：
#include<stdio.h>
指示预处理器打开一个名字为stdio.h的文件，并将它的内容加到当前的程序中。

预处理器的输入是一个C语言程序，程序可能包含指令。预处理器会执行这些指令，并在处理过程中删除这些指令。预处理器的输出是另外一个程序：原程序的一个编辑后的版本，不再包含指令。预处理器的输出被直接交给编译器，编译器检查程序是否有错误，并经程序翻译为目标代码。

9.typedf和#define的区别

a.首先，二者执行时间不同
关键字typedef在编译阶段有效，由于是在编译阶段，因此typedef有类型检查的功能。
Define则是宏定义，发生在预处理阶段，也就是编译之前，它只进行简单而机械的字符串替换，而不进行任何检查。
#define用法

例：
1. #define f(x) x*x
2. main( )
3. {
4. int a=6，b=2，c；
5. c=f(a) / f(b)；
6. printf("%d \n"，c)；
7. }
程序的输出结果是: 36，根本原因就在于#define只是简单的字符串替换，应当加个括号“（X*X）”。

b.功能不同
Typedef用来定义类型的别名，这些类型不只包含内部类型（int，char等），还包括自定义类型（如struct），可以起到使类型易于记忆的功能。
如： typedef int (*PF) (const char *, const char *);
定义一个指向函数的指针的数据类型PF，其中函数返回值为int，参数为const char *。
typedef 有另外一个重要的用途，那就是定义机器无关的类型，例如，你可以定义一个叫 REAL 的浮点类型，在目标机器上它可以i获得最高的精度：
typedef long double REAL;
在不支持 long double 的机器上，该 typedef 看起来会是下面这样：
typedef double REAL;
并且，在连 double 都不支持的机器上，该 typedef 看起来会是这样：
typedef float REAL;
#define不只是可以为类型取别名，还可以定义常量、变量、编译开关等。

c.作用域不同
#define没有作用域的限制，只要是之前预定义过的宏，在以后的程序中都可以使用。而typedef有自己的作用域。
1. void fun()
2. {
3. #define A int
4. }
5. void gun()
6. {
7. //在这里也可以使用A，因为宏替换没有作用域，
8. //但如果上面用的是typedef，那这里就不能用A ，不过一般不在函数内使用typedef
9. }

d.对指针的操作
二者修饰指针类型时，作用不同。
1. Typedef int * point；
2. #define POINT int *
3. Const point p；//p不可更改，p指向的内容可以更改，相当于 int * const p;
4. Const POINT p；//p可以更改，p指向的内容不能更改，相当于 const int *p；或 int const *p；
5. point s1, s2; //s1和s2都是int型指针
6. POINT s3, s4; //相当于int * s3，s4；只有一个是指针。

10.结构体和联合体

a.C语言的联合体union又叫做共用体，并不常用，类似于大家所熟知的结构体struct。如其名，我们差不多能获知这个数据结构有一部分东西是共用的，结构里面除了变量空间，也没什么可以共用的了。即，共用体内部所有声明的变量，均为共用一个内存首址，联合体占用内存大小与联合体内部占用空间最大的变量相同。我们给其中每一个变量进行的赋值，都会影响到其他变量的值。

b.在C语言中，可以使用结构体（Struct）来存放一组不同类型的数据。

结构体的定义形式为：
struct 结构体名{
结构体所包含的变量或数组
};
结构体是一种集合，它里面包含了多个变量或数组，它们的类型可以相同，也可以不同，每个这样的变量或数组都称为结构体的成员（Member）。

结构体也是一种数据类型，它由我们自己来定义，可以包含多个其他类型的数据。
像int、float、char 等是由C语言本身提供的数据类型，不能再进行分拆，我们称之为基本数据类型；而结构体可以包含多个基本类型的数据，也可以包含其他的结构体。