字节对齐_大小端_位序

最新推荐文章于 2023-03-25 23:42:33 发布

樱木的追风者

最新推荐文章于 2023-03-25 23:42:33 发布

阅读量658

点赞数 1

分类专栏： C

本文链接：https://blog.csdn.net/lkzp12/article/details/108304463

版权

C 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

字节序

字节序，顾名思义就是字节的高低位存放顺序。¹

对于单字节，大部分处理器以相同的顺序处理比特位，因此单字节的存放和传输方式一般相同。

对于多字节数据，如整型(32位机中一般占4字节)，在不同的处理器的存放方式主要有两种(以内存中0x0A0B0C0D的存放方式为例)。

大端，Big-Endian

在计算机中，存储介质以下面方式存储整数0x0A0B0C0D则称为大字节序：

0x0A	0xOB	0xOC	0xOD
0x0000	0x0001	0x0002	0x0003

其中，最高有效位(MSB，Most Significant Byte)0x0A存储在最低的内存地址处。下个字节0x0B存在后面的地址处。同时，最高的16bit单元0x0A0B存储在低位。

小端，Littel-Endian

在计算机中，存储介质以下面方式存储整数0x0A0B0C0D则称为小字节序：

0x0D	0xOC	0xOB	0xOA
0x0000	0x0001	0x0002	0x0003

其中，最低有效位(LSB，Least Significant Byte)0x0D存储在最低的内存地址处。

网络序

网络传输一般采用大字节序，也称为网络字节序或网络序。IP协议中定义大字节序为网络字节序。

字节对齐

what?

现代计算机系统结构中，数据在内存中是按字节存放的，但访问不同类型的数据时，需使用特定的内存地址更新模式。
字节对齐即对数据在内存中的存储位置进行调整，使其为该数据类型大小的整数倍，方便数据读取，提高数据读取效率。

why？

char A;
int B;

若上述变量分配存储空间时，不考虑字节对齐，在内存中按以下方式存储

-	0x00	0x01	0x02	0x03	0x04
0x10	A	B_01	B_02	B_03	B_04
0x20
0x30

假设计算机系统字长为4个字节，内存地址从0x00开始分配，字符型变量A占用1个字节，整形变量B占用4个字节（按B_01…B_04存储，不考虑大小端）。

所以在处理变量A与B时的过程可能大致为：

A:将0x00-0x03共32位读入寄存器，再通过左移24位再右移24位运算得到a的值(或与0x000000FF做与运算)

B:将0x00-0x03这32位读入寄存器，通过位运算得到低24位的值；再将0x04-0x07这32位读入寄存器，通过位运算得到高8位的值；再与最先得到的24位做位运算，才可得到整个32位的值。

上面叙述可知，对A的处理是最简处理，可对B的处理，本身是个32位数，处理的时候却得折成2部分，之后再合并，效率上就有些低了。

想解决这个问题，就需要付出几个字节浪费的代价，改为下图的分配方式：
若上述变量分配存储空间时，不考虑字节对齐，在内存中按以下方式存储

-	0x00	0x01	0x02	0x03	0x04	0x05	0x06	0x07
0x10	A	*	*	*	B_01	B_02	B_03	B_04
0x20
0x30

注：* 代表填充字节
按上面的分配方式，A的处理过程不变；B却简单得多了：只需将0x04-0x07这32位读入寄存器就OK了。
但最常见的情况是，如果不按照平台要求对数据存放进行对齐，会带来存取效率上的损失。比如32位的Intel处理器通过总线访问(包括读和写)内存数据。每个总线周期从偶地址开始访问32位内存数据，内存数据以字节为单位存放。如果一个32位的数据没有存放在4字节整除的内存地址处，那么处理器就需要2个总线周期对其进行访问，显然访问效率下降很多。

因此，通过合理的内存对齐可以提高访问效率。为使CPU能够对数据进行快速访问，数据的起始地址应具有“对齐”特性。比如4字节数据的起始地址应位于4字节边界上，即起始地址能够被4整除。

此外，合理利用字节对齐还可以有效地节省存储空间。但要注意，在32位机中使用1字节或2字节对齐，反而会降低变量访问速度。因此需要考虑处理器类型。还应考虑编译器的类型。在VC/C++和GNU GCC中都是默认是4字节对齐。

How？

在C语言中，结构体是种复合数据类型，其构成元素既可以是基本数据类型(如int、long、float等)的变量，也可以是一些复合数据类型(如数组、结构体、联合等)的数据单元。编译器为结构体的每个成员按照其自然边界(alignment)分配空间。各成员按照它们被声明的顺序在内存中顺序存储，第一个成员的地址和整个结构的地址相同。

位序

C语言中的位域结构也要遵循比特序(类似字节序)。例如：

1 struct bitfield{
2     unsigned char a: 2;
3     unsigned char b: 6;
4 }

该位域结构占1个字节，假设赋值a = 0x01和b=0x02，则大字节机器上该字节为(01)(000010)，小字节机器上该字节为(000010)(01)。因此在编写可移植代码时，需要加条件编译。

注意，在包含位域的C结构中，若位域A在位域B之前定义，则位域A所占用的内存空间地址低于位域B所占用61的内存空间。

Bit order usually follows the same endianness as the byte order for a given computer system. That is, in a big endian system the most significant bit is stored at the lowest bit address; in a little endian system, the least significant bit is stored at the lowest bit address.²

位域对齐

位域定义

有些信息在存储时，并不需要占用一个完整的字节，而只需占几个或一个二进制位。例如在存放一个开关量时，只有0和1两种状态，用一位二进位即可。为了节省存储空间和处理简便，C语言提供了一种数据结构，称为“位域”或“位段”。

位域是一种特殊的结构成员或联合成员(即只能用在结构或联合中)，用于指定该成员在内存存储时所占用的位数，从而在机器内更紧凑地表示数据。每个位域有一个域名，允许在程序中按域名操作对应的位。这样就可用一个字节的二进制位域来表示几个不同的对象。
位域定义与结构定义类似，其形式为：

定义

struct 位域结构名
{
位域列表
};

其中位域列表的形式为：

类型说明符位域名：位域长度

位域的使用

位域的使用和结构成员的使用相同，其一般形式为：

位域变量名.位域名

位域的输出

位域允许用各种格式输出。

位域变量的使用
位域在本质上就是一种结构类型，不过其成员是按二进位分配的。位域变量的说明与结构变量说明的方式相同，可先定义后说明、同时定义说明或直接说明。
位域的适用场景
- 当机器可用内存空间较少而使用位域可大量节省内存时。如把结构作为大数组的元素时。
- 当需要把一结构体或联合映射成某预定的组织结构时。如需要访问字节内的特定位时。

对齐准则

位域成员不能单独被取sizeof值。下面主要讨论含有位域的结构体的sizeof。

C99规定int、unsigned int和bool可以作为位域类型，但编译器几乎都对此作了扩展，允许其它类型的存在。位域作为嵌入式系统中非常常见的一种编程工具，优点在于压缩程序的存储空间。

其对齐规则大致为：

如果相邻位域字段的类型相同，且其位宽之和小于类型的sizeof大小，则后面的字段将紧邻前一个字段存储，直到不能容纳为止；
如果相邻位域字段的类型相同，但其位宽之和大于类型的sizeof大小，则后面的字段将从新的存储单元开始，其偏移量为其类型大小的整数倍；
如果相邻的位域字段的类型不同，则各编译器的具体实现有差异，VC6采取不压缩方式，Dev-C++和GCC采取压缩方式；
如果位域字段之间穿插着非位域字段，则不进行压缩；
整个结构体的总大小为最宽基本类型成员大小的整数倍，而位域则按照其最宽类型字节数对齐。

 struct BitField
 {
     char element1  : 1;
     char element2  : 4;
     char element3  : 5;
 };
位域类型为char，第1个字节仅能容纳下element1和element2，所以element1和element2被压缩到第1个字节中，而element3只能从下一个字节开始。因此sizeof(BitField)的结果为2

 struct BitField1
 {
     char element1   : 1;
     short element2  : 5;
     char element3   : 7;
 };
由于相邻位域类型不同，在VC6中其sizeof为6，在Dev-C++中为2

struct BitField2
{
     char element1  : 3;
     char element2  ;
     char element3  : 5;
};
非位域字段穿插在其中，不会产生压缩，在VC6和Dev-C++中得到的大小均为3。

 struct StructBitField
 {
     int element1   : 1;
     int element2   : 5;
     int element3   : 29;
     int element4   : 6;
     char element5  :2;
     char stelement;  //在含位域的结构或联合中也可同时说明普通成员
 };
 位域中最宽类型int的字节数为4，因此结构体按4字节对齐，在VC6中其sizeof为16。

注意事项

关于位域操作有几点需要注意：

位域的地址不能访问，因此不允许将&运算符用于位域。不能使用指向位域的指针也不能使用位域的数组(数组是种特殊指针)。

例如，scanf函数无法直接向位域中存储数据：

1 int main(void){  
2     struct BitField1 tBit;
3     scanf("%d", &tBit.element2); //error: cannot take address of bit-field 'element2'
4     return 0;
5 }

可用scanf函数将输入读入到一个普通的整型变量中，然后再赋值给tBit.element2。

位域不能作为函数返回的结果。
位域以定义的类型为单位，且位域的长度不能够超过所定义类型的长度。例如定义int a:33是不允许的。
位域可以不指定位域名，但不能访问无名的位域。

位域可以无位域名，只用作填充或调整位置，占位大小取决于该类型。例如，char :0表示整个位域向后推一个字节，即该无名位域后的下一个位域从下一个字节开始存放，同理short :0和int :0分别表示整个位域向后推两个和四个字节。

当空位域的长度为具体数值N时(如int :2)，该变量仅用来占位N位。


1 struct BitField3{
2     char element1  : 3;
3     char  :6;
4     char element3  : 5;
5 };
结构体大小为3。因为element1占3位，后面要保留6位而char为8位，所以保留的6位只能放到第2个字节。同样element3只能放到第3字节。

1 struct BitField4{
2     char element1  : 3;
3     char  :0;
4     char element3  : 5;
5 };
长度为0的位域告诉编译器将下一个位域放在一个存储单元的起始位置。如上，编译器会给成员element1分配3位，接着跳过余下的4位到下一个存储单元，然后给成员element3分配5位。故上面的结构体大小为2。

位域的表示范围。
- 位域的赋值不能超过其可以表示的范围；
- 位域的类型决定该编码能表示的值的结果。

对于第二点，若位域为unsigned类型，则直接转化为正数；若非unsigned类型，则先判断最高位是否为1，若为1表示补码，则对其除符号位外的所有位取反再加一得到最后的结果数据(原码)。如：

1 unsigned int p:3 = 111;   //p表示7
2 int p:3 = 111;            //p 表示-1，对除符号位之外的所有位取反再加一

带位域的结构在内存中各个位域的存储方式取决于编译器，既可从左到右也可从右到左存储。

int main(void){  
  union{
      int i;
      struct{
          char a : 1;
          char b : 1;
          char c : 2;
      }bits;
  }num;

  printf("Input an integer for i(0~15): ");
  scanf("%d", &num.i);
  printf("i = %d, cba = %d %d %d\n", num.i, num.bits.c, num.bits.b, num.bits.a);
  return 0;
}

输入i值为11，则输出为i = 11, cba = -2 -1 -1。

Intel x86处理器按小字节序存储数据，所以bits中的位域在内存中放置顺序为ccba。当num.i置为11时，bits的最低有效位(即位域a)的值为1，a、b、c按低地址到高地址分别存储为10、1、1(二进制)。

但为什么最后的打印结果是a=-1而不是1？

因为位域a定义的类型signed char是有符号数，所以尽管a只有1位，仍要进行符号扩展。1做为补码存在，对应原码-1。

如果将a、b、c的类型定义为unsigned char，即可得到cba = 2 1 1。1011即为11的二进制数。

注：C语言中，不同的成员使用共同的存储区域的数据构造类型称为联合(或共用体)。联合占用空间的大小取决于类型长度最大的成员。联合在定义、说明和使用形式上与结构体相似。

位域的实现会因编译器的不同而不同，使用位域会影响程序可移植性。因此除非必要否则最好不要使用位域。
尽管使用位域可以节省内存空间，但却增加了处理时间。当访问各个位域成员时，需要把位域从它所在的字中分解出来或反过来把一值压缩存到位域所在的字位中。

https://www.cnblogs.com/clover-toeic/p/3853132.html ↩︎
https://www.linuxjournal.com/article/6788 ↩︎

樱木的追风者

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
字节对齐_大小端_位序

字节序字节序，顾名思义就是字节的高低位存放顺序。1对于单字节，大部分处理器以相同的顺序处理比特位，因此单字节的存放和传输方式一般相同。对于多字节数据，如整型(32位机中一般占4字节)，在不同的处理器的存放方式主要有两种(以内存中0x0A0B0C0D的存放方式为例)。大端，Big-Endian在计算机中，存储介质以下面方式存储整数0x0A0B0C0D则称为大字节序：0x0A0xOB0xOC0xOD0x00000x00010x00020x0003其中，最高有效位(
复制链接

扫一扫