1.从内存对齐讲起
对于结构体变量内存对齐遵循以下三个原则:
-
- 变量的起始地址能够被其对齐值整除,结构体变量的对齐值为最宽的成员大小。
-
- 结构体每个成员相对于起始地址的偏移能够被其自身对齐值整除,如果不能则在前一个成员后面补充字节。
-
- 结构体总体大小能够被最宽的成员的大小整除,如不能则在后面补充字节。
此外还有编译器的默认对齐值,一般默认对齐值为4(结构体的实际对齐值会取结构体对齐值和编译器默认对齐值中较小的那一个)。
那么为什么要内存对齐?
- 结构体总体大小能够被最宽的成员的大小整除,如不能则在后面补充字节。
-
- 为了减少使用的内存
-
- 为了提升数据读取的效率
考虑以下的结构体:
struct Test
{
char a;
int b;
short c;
};
C++中可以使用alignof获取类型的对齐值,char类型的对齐值为1, int的对齐值为4, short的对齐值为2,整个结构体的对齐值为4。假设结构体变量的起始地址已经对齐,那么结构体的第一个成员a已经对齐,由于第一个成员a的大小为1而第二成员b的对齐值为4,则根据第二条对齐原则需要在第一个成员后填充3个字节才能使第二个成员对齐,第二个成员对齐后第三个成员的起始地址刚好为其对齐值的整数倍所以不需要进行填充,此时算上填充字节,结构体占用的总字节为10字节,又由第三条原则,结构体大小需要为4的整数倍,因此需要在第三个成员c后填充2个字节,可以算得结构体的总大小为12(在默认对齐值为2时,大小为8字节)。
改变结构体成员顺序如下:
struct Test
{
int b;
short c;
char a;
};
改变成员顺序后,若结构体变量的起始地址已经对齐,则根据原则2三个成员均以对齐,中间不需要进行填充,此时结构体占用的总字节为7,又由原则3需要在最后一个变量后填充1个字节,因此结构体总大小为8(在默认对齐值为2时,大小也为8字节)。
从上面的例子可以看出根据对齐原则合理安排结构体成员的顺序可以减少内存的占用。
现在考虑一个double类型的数组(double类型为8字节对齐), 其在内存中所处的位置如下:
- 为了提升数据读取的效率
数组的首地址为2,根据原则1数组未对齐。若CPU每次从内存中为8字节整数倍的地址开始读入8字节的数据,则每次从未对齐的数组中读取一个成员都要进行两次读取操作,而从对齐的数组中读取则只需要一次读取操作,数组对齐时读取效率有较大提升(虽然现在也有很多处理器支持非对齐的读取,但是还是推荐对齐)。
2.操作系统与C内存管理机制
a.windows内存管理机制
Windows系统中的内存分配机制如下图所示:
Windows内管理机制
操作系统将Physical Memory映射为连续的Virtual Memory(通过TLB),并提供了一些与Virtual Memory相关的API(VirtualAlloc,VirtualFree…)对Virtual Memory进行管理,在Virtual Memory API之上又构建了Heap Memory Memory API(HeapALloc…),而C的内存管理机制(malloc,free)就构建在 Heap Memory Memory API之上。
使用Virtual Alloc分配内存时,每次只能分配页面大小(默认4KB)整数倍的连续虚拟内存(但是两次连续调用所分配的内存并不一定连续)。
b.Linux内存管理机制
Linux中可以借助brk或mmap函数从用户空间中申请连续内存。
Linux寻址空间(32位),用户空间为3GB,内核空间为1GB
通过调用brk(0)可以获取指向用户空间某一地址的指针,随后调用brk(len)可以在原指针地址的基础上移动该指针以达到申请或释放内存的目的。而mmap则是直接在用户空间中申请一块连续的空闲内存。(更详细的Linux内存分配机制可以参见1)
c.C内存管理机制
C/C++程序的内存布局如下:
C/C++ Memory Layout
从Code Segment到Stack的内存地址均位于用户空间中,其地址空间由低到高。其中:
- • Code Segment(代码段或Text Segment)中存放着程序的机器码和只读数据,可执行指令就是从这里取得的。如果可能,系统会安排相同程序的多个运行实体共享这些实例代码。这个段在内存中一般被标记为只读,任何对该区的写操作都会导致段错误(Segmentation Fault)。
- • Data Segment中存放已初始化的全局或静态变量。
- • BSS中存放未初始化的全局或静态变量。
- • Heap(堆),堆的大小并不固定,可动态扩张或缩减。其分配由malloc()、new()等这类实时内存分配函数来实现(brk函数也是从这里分配内存)。
- • Stack(栈),用来存储函数调用时的临时信息,如函数调用所传递的参数、函数的返回地址、函数的局部变量等。 在程序运行时由编译器在需要的时候分配,在不需要的时候自动清除。栈内存的申请和释放遵循LIFO(先进后出)。
堆和栈有哪些不同?(引用2)
1.分配和管理方式不同
堆是动态分配的,其空间的分配和释放都由程序员控制。
栈由编译器自动管理。栈有两种分配方式:静态分配和动态分配。静态分配由编译器完成,比如局部变量的分配。动态分配由_alloca()函数进行分配,但是栈的动态分配和堆是不同的,它的动态分配是由编译器进行释放,无须手工控制。
2.产生碎片不同
对堆来说,频繁的new/delete或者malloc/free可能会造成内存空间的不连续,造成大量的碎片,使程序效率降低。
对栈而言,则不存在碎片问题,因为栈是先进后出的队列,永远不可能有一个内存块从栈中间弹出。
3.增长方向不同
堆由低地址向高地址增长。
栈由高地址向低地址增长。
3.Malloc的简单实现
本节将会介绍如何实现一个简单的malloc,这里采用的内存管理方式为:先通过_aligned_malloc申请一块8字节对齐的内存(也可以采用VirtualAlloc分配),然后实现malloc和free函数对这块内存进行管理。
这里将内存以块(Block)的方式进行管理,每块内存分为标记区(Header)和数据区(Data),块的定义如下:
#define BLOCK_MAGIC_FLAG 0xF
#define