网络字节序与主机字节序
不同的CPU有不同的字节序类型 这些字节序是指整数在内存中保存的顺序 这个叫做主机序
最常见的有两种
1. Little endian(小头):将低序字节存储在起始地址
2. Big endian(大头):将高序字节存储在起始地址
内存地址: (起始地址)低位 ------> 高位
二进制编码: 0x高位|低位
FE FF : 大头,最直观
FF FE:小头,需要颠倒
LE little-endian
最符合人的思维的字节序
地址低位存储值的低位
地址高位存储值的高位
怎么讲是最符合人的思维的字节序,是因为从人的第一观感来说
低位值小,就应该放在内存地址小的地方,也即内存地址低位
反之,高位值就应该放在内存地址大的地方,也即内存地址高位
BE big-endian
最直观的字节序
地址低位存储值的高位
地址高位存储值的低位
为什么说直观,不要考虑对应关系
只需要把内存地址从左到右按照由低到高的顺序写出
把值按照通常的高位到低位的顺序写出
两者对照,一个字节一个字节的填充进去
例子:在内存中双字0x01020304(DWORD)的存储方式
内存地址
4000 4001 4002 4003
LE 04 03 02 01
BE 01 02 03 04
例子:如果我们将0x1234abcd写入到以0x0000开始的内存中,则结果为
big-endian little-endian
0x0000 0x12 0xcd
0x0001 0x23 0xab
0x0002 0xab 0x34
0x0003 0xcd 0x12
实验:
用sublime显示汉字 “严”在ANSI
,Unicode
,Unicode big endian
和UTF-8
编码方式下对应的机器码。
ANSI:
文件的编码显示 D1 CF, 这正是“严”的 GB2312 编码,这也暗示 GB2312 是采用大头方式存储的
Unicode: 编码是四个字节 FF
FE 25 4E
,其中FF FE
表明是小头方式存储,真正的编码是4E25
。
Unicode big endian: 编码是四个字节 FEFF 4E 25, 其中FEFF表示大头方式存储,因此与直观感受一样(即:编码顺序和存储顺序相同),真正的编码即为4E25
UTF-8: 编码是六个字节
EF BB BF E4 B8 A5
,前三个字节EF BB BF
表示这是UTF-8编码,后三个E4B8A5
就是严
的具体编码,它的存储顺序与编码顺序是一致的。
例如:chen25陈 的UTF-8编码为
同样以EF BB BF开头
资料:
https://blog.csdn.net/sunstars2009918/article/details/7274519
http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html