字节顺序 Big-Endian&Little-Endian
1,什么是字节顺序 指的就是数据在内存里存储的顺序,通常我们默认一个存储单元为1Byte,一个逻辑数据比如Float是4个Byte,它在内存理存储的顺序可以是高位在前,也可以是低位在前.这样就有区分了. 2,有些什么顺序: Big-Endian(MSB),高位在低地址 Little-Endian(LSB),低位在低地址 Endian指的是当物理上的最小单元比逻辑上的最小单元小时,逻辑到物理的单元排布关系 3,为什么要有字节顺序? 因为程序需要与外界通讯,传送数据,这里的外界包括其他机器和其他语言写的程序.比如x86下c++程序与linux底下的程序通讯,比如c++和java的程序通讯.都会涉及到字节存放顺序的问题. 3,哪些会是Big-Endian,哪些会是Little-Endian 网络协议都是Big-Endian的,Java编译的都是Big-Endian的 Motorola的PowerPC是Big-Endian的 x86系列则采用Little-Endian方式存储数据。 ARM同时支持 big和little,实际应用中通常使用Little-Endian 4,如何判断我现在的系统里采用什么字节存储顺序? /*用于判断存储格式是little endian还是big ednian的C代码*/ using namespace std; union void main() } printf("Now,Let's look at every byte in the memory!"n"); getchar(); 5,如何转换字节顺序,Big-Endian-->Little-Endian or Little Endian->Big Endian. #include <stdio.h> void put_32(unsigned char * cmd, unsigned int data)
今天碰一个关于字节顺序的问题,虽然看起来很简单,但一直都没怎么完全明白这个东西,索性就找了下资料,把它弄清楚.
因为现行的计算机都是以八位一个字节为存储单位,那么一个16位的整数,也就是C语言中的short,在内存中可能有两种存储顺序big-endian和 litte-endian.考虑一个short整数0x3132(0x32是低位,0x31是高位),把它赋值给一个short变量,那么它在内存中的存 储可能有如下两种情况:
大端字节(Big-endian):
----------------->>>>>>>> 内存地址增大方向
short变量地址
0x1000 0x1001
_____________________________
| | | 0x31 | 0x32 |________________ | ________________
高位字节在低位字节的前面,也就是高位在内存地址低的一端.可以这样记住(大端->高位->在前->正常的逻辑顺序)
小端字节(little-endian):
----------------->>>>>>>> 内存地址增大方向
short变量地址
0x1000 0x1001
_____________________________
| | | 0x32 | 0x31 |________________ | ________________ 低位字节在高位字节的前面,也就是低位在内存地址低的一端.可以这样记住(小端->低位->在前->与正常逻辑顺序相反)
可以做个实验
在windows上下如下程序
#include <stdio.h>
#include <assert.h>
void main( void )
{
short test; FILE* fp; test = 0x3132; //(31ASIIC 码的’1’,32ASIIC码的’2’)
if ((fp = fopen ("c://test.txt", "wb")) == NULL)
assert(0);
fwrite(&test, sizeof(short), 1, fp); fclose(fp);
}
然后在C盘下打开test.txt文件,可以看见内容是21,而test等于0x3132,可以明显的看出来x86的字节顺序是低位在前.如果我们把这段 同样的代码放到(big-endian)的机器上执行,那么打出来的文件就是12.这在本机中使用是没有问题的.但当你把这个文件从一个big- endian机器复制到一个little-endian机器上时就出现问题了.
如上述例子,我们在big-endian的机器上创建了这个test文件,把其复制到little-endian的机器上再用fread读到一个 short里面,我们得到的就不再是0x3132而是0x3231了,这样读到的数据就是错误的,所以在两个字节顺序不一样的机器上传输数据时需要特别小 心字节顺序,理解了字节顺序在可以帮助我们写出移植行更高的代码.
正因为有字节顺序的差别,所以在网络传输的时候定义了所有字节顺序相关的数据都使用big-endian,BSD的代码中定义了四个宏来处理:
#define ntohs(n)
// 网络字节顺序到主机字节顺序 n代表net, h代表host, s代表short
#define htons(n)
// 主机字节顺序到网络字节顺序 n代表net, h代表host, s代表short
#define ntohl(n)
// 网络字节顺序到主机字节顺序 n代表net, h代表host, s代表 long
#define htonl(n)
// 主机字节顺序到网络字节顺序 n代表net, h代表host, s代表 long
举例说明下这其中一个宏的实现:
#define sw16(x) / (( short )( / ((( short )(x) & ( short )0x00ffU) << 8) | / ((( short )(x) & ( short )0xff00U) >> 8) ))
这里实现的是一个交换两个字节顺序.其他几个宏类似.
我们改写一下上面的程序
#include <stdio.h>
#include <assert.h>
#define sw16(x) /
((short)( /
(((short)(x) & (short)0x00ffU) << 8) | / (((short)(x) & (short)0xff00U) >> 8) )) // 因为x86下面是低位在前,需要交换一下变成网络字节顺序
#define htons(x) sw16(x)
void main( void )
{
short test; FILE* fp; test = htons(0x3132); //(31ASIIC 码的’1’,32ASIIC码的’2’) if ((fp = fopen ("c://test.txt", "wb")) == NULL)
assert(0);
fwrite(&test, sizeof(short), 1, fp); fclose(fp);
}
如果在高字节在前的机器上,由于与网络字节顺序一致,所以我们什么都不干就可以了,只需要把#define htons(x) sw16(x)宏替换为 #define htons(x) (x).
一开始我在理解这个问题时,总在想为什么其他数据不用交换字节顺序?比如说我们write一块buffer到文件,最后终于想明白了,因为都是unsigned char类型一个字节一个字节的写进去,这个顺序是固定的,不存在字节顺序的问题,够笨啊..
Big-Endian 最重要的字节在词的左端。 Little-Endian 最重要的字节在词的右端。 通常,您不必为在网络上发送和接收的数据的字节顺序转换担心,但在有些情况下,您必须转换字节顺序。
何时必须转换字节顺序在下列情况中需要转换字节顺序:
何时不必转换字节顺序在下列情况下可以免去转换字节顺序的工作:
注重 当通信的另一端不是 MFC 应用程序时,也必须避免将从 CObject 派生的 C++ 对象以流的形式输入存 档,因为接收端无法处理它们。请参见 Windows Sockets:使用带存档的套接字中的说明。 有关字节顺序的更多信息,请参见 Platform SDK 中的 Windows Sockets 规范。ntohs 将 16 位数量从网络字节顺序转换为主机字节顺序(从 Big-Endian 转换为 Little-Endian)。 ntohl 将 32 位数量从网络字节顺序转换为主机字节顺序(从 Big-Endian 转换为 Little-Endian)。 htons 将 16 位数量从主机字节顺序转换为网络字节顺序(从 Little-Endian 转换为 Big-Endian)。 htonl 将 32 位数量从主机字节顺序转换为网络字节顺序(从 Little-Endian 转换为 Big-Endian)。 此示例的另一个要点是,当通信另一端的套接字应用程序为非 MFC 应用程序时,必须避免出现如下列语句的操作: ar pMsg; 这里的 pMsg 是指向从 CObject 类派生的 C++ 对象的指针。这将发送多余的与对象关联的 MFC 信息,而服务器并不理解这些信息,因为只有服务器是 MFC 应用程序时才理解。 有关更多信息,请参见:
|