struct/class/union内存对齐原则有四个:
- 内置类型数据成员:结构(struct/class)的内置类型数据成员,第一个数据成员放在offset为0的地方,以后每个数据成员的起始位置要从自身大小的整数倍开始存储
- 结构体作为成员: 如果一个结构里有某些结构体成员,则结构体成员要从其内部“最宽基本类型成员”的整数倍地址开始存储(如struct a里存有struct b,b里有char, int, double等元素,那b应该从8的整数倍位置开始存储)。
- 收尾工作: 结构体的总大小,也就是sizeof的结果必须要对齐到内部"最宽基本类型成员"的整数倍,不足的要补齐。(基本类型不包括struct/class/union)。
- sizeof(union) 以结构里面size最大的元素为union的大小,因为在某一时刻,union只有一个成员真正存储于该地址。
实例解释:
No.1
class Data
{
char c;
int a;
};
cout << sizeof(Data) << endl;
No.2
class Data
{
char c;
double a;
};
cout << sizeof(Data) << endl;
显然程序No.1 输出的结果为 8,No.2 输出的结果为 16 .
No.1最大的数据成员是4bytes,1+4=5,补齐为4的倍数,也就是8。而No.2为8bytes,1+8=9,补齐为8的倍数,也就是16。
No.3
class Data
{
char c;
int a;
char d;
};
cout << sizeof(Data) << endl;
No.4
class Data
{
char c;
char d;
int a;
};
cout << sizeof(Data) << endl;
No.3运行结果为 12,No.4运行结果为 8
class中的数据成员放入内存的时候,内存拿出一个内存块来,数据成员们排队一个一个往里放,遇到太大的成员时,不是将其劈成两半能放多少就放多少,而是等下一个内存块过来。这样的话,就可以理解为什么No.3 No.4两段代码输出结果不一样了,因为No.3是
1 + (3) + 4 + 1 + (3) = 12,而No.4是1 + 1 + (2) + 4 = 8。括号中为补齐的bytes。
No.5
class BigData
{
char array[33];
};
class Data
{
BigData bd;
int integer;
double d;
};
cout << sizeof(BigData) << " " << sizeof(Data) << endl;
No.6
class BigData
{
char array[33];
};
class Data
{
BigData bd;
double d;
};
cout << sizeof(BigData) << " " << sizeof(Data) << endl;
No.5和No.6运行结果均为: 33 48
在默认条件下,内存对齐是以class中最大的那个基本类型为基准的,如果class中有自定义类型,则递归的取其中最大的基本类型来参与比较。在No.5和No.6中内存块一个接一个的过来接走数据成员,一直到第5块的时候,BigData里只剩1个char了,将它放入内存块中,内存块还剩7个bytes,接下来是个int(4bytes),能够放下,所以也进入第5个内存块,这时候内存块还剩3bytes,而接下来是个double(8bytes),放不下,所以要等下一个内存快到来。因此,No.5的Data的size = 33 + 4 + (3) + 8 = 48,同理No.6应该是
33 + (7) + 8 = 48。
顺便提一下Union: 共用体表示几个变量共用一个内存位置,在不同的时间保存不同的数据类型和不同长度的变量。在union中,所有的共用体成员共用一个空间,并且同一时间只能储存其中一个成员变量的值。
No.7
class A {
public:
double len;
char str[33];
};
class B {
public:
A a;
int b;
};
cout << sizeof(A) << " " << sizeof(B) << endl;
以上代码输出的结果为: 48 56
对于class A,实际占用41字节,但会发生8字节对齐,所以大小为48字节。对于class B,成员b的起始位置已发生8字节对齐,而class B整体还会发生8字节对齐,所以最终大小为56。
内存对齐的主要作用是:
- 平台原因(移植原因):不是所有的硬件平台都能访问任意地址上的任意数据的;某些硬件平台只能在某些地址处取某些特定类型的数据,否则抛出硬件异常。
- 性能原因:经过内存对齐后,CPU的内存访问速度大大提升。
在程序员看来,内存是由一个个的字节组成。而CPU并不是这么看待的,CPU把内存当成是一块一块的,块的大小可以是2,4,8,16字节大小,因此CPU在读取内存时是一块一块进行读取的。块大小成为memory access granularity(粒度) 本人把它翻译为“内存读取粒度” 。
假设CPU要读取一个int型4字节大小的数据到寄存器中,分两种情况讨论:
1、数据从0字节开始
2、数据从1字节开始
再次假设内存读取粒度为4。
-
当该数据是从0字节开始时,很CPU只需读取内存一次即可把这4字节的数据完全读取到寄存器中。
-
当该数据是从1字节开始时,问题变的有些复杂,此时该int型数据不是位于内存读取边界上,这就是一类内存未对齐的数据。
此时CPU先访问一次内存,读取0—3字节的数据进寄存器,并再次读取4—5字节的数据进寄存器,接着把0字节和6,7,8字节的数据剔除,最后合并1,2,3,4字节的数据进寄存器。对一个内存未对齐的数据进行了这么多额外的操作,大大降低了CPU性能。这还属于乐观情况了,上文提到内存对齐的作用之一为平台的移植原因,因为以上操作只有有部分CPU肯干,其他一部分CPU遇到未对齐边界就直接罢工了。