为什么要有字节序?
字节序,即字节的排列顺序。在计算机领域中,计算机内存中的字(word)由多个字节(bytes)组成,这些字节的排列顺序叫做字节序。
计算机中电路优先处理低位字节,效率比较高,因为计算机都是从低位开始的,所以计算机内部处理都是小端字节序。但是我们平常读写数值的方法,习惯用大端字节序,所以除了计算机的内部,其他场景大都是大端字节序,比如:网络传输和文件储存时都是用的大端字节序。
小端序(Little Endian):低位字节在低地址,高位字节在高地址。
大端序(Big Endian):高位字节在低地址,低位字节在高地址。
字节序取决于什么?
其实大小端主要由CPU决定,与编程语言、编译器、操作系统这些没有直接关系。
大小端是用于存储的顺序,与存储器(硬件)关系比较大,编译器和操作系统仅仅是配合CPU编译好相应的代码,而不是决定大小端的因素。
一般来说,x86系列CPU都是Little-endian字节序,PowerPC通常是Big-endian字节序。
查看golang整型是大端还是小端?
在 Intel i5 CPU 上执行:
package main
import (
"fmt"
"unsafe"
)
func main() {
isLit := IsLittleEndian()
fmt.Printf("%t\n", isLit)
}
func IsLittleEndian() bool {
var value int32 = 1
pointer := unsafe.Pointer(&value)
pb := (*byte)(pointer)
if *pb == 1 {
return true
}
return false
}
输出:
true
以go1.18为例,从go官方目前发布的各系统编译好的包来看,常见的架构都是小端,包括:386、amd64、arm(默认小端)、ppc64le都是小端架构。
整数移位运算结果和字节序有关系吗?
不算大端还是小端,移位运算的结果是一样的,都是按照直观的字面视觉效果移动也就是按照大端字节序理解即可。
移位运算可以看作是一系列的乘2或除2操作。
例如golang的官方包 encoding/binary 里有段代码:
func (littleEndian) PutUint32(b []byte, v uint32) {
_ = b[3] // early bounds check to guarantee safety of writes below
b[0] = byte(v)
b[1] = byte(v >> 8)
b[2] = byte(v >> 16)
b[3] = byte(v >> 24)
}
这段代码用了两个和架构无关的运算来实现大小端转换:
1、通过移位运算进行大小端转换,实现架构的兼容。
2、通过整数类型缩小来取最低位byte值,实现架构的兼容。
如果是小端机器这样的操作其实可以用取巧的指针运算,无需进行多次的移位运算:
package main
import (
"encoding/binary"
"fmt"
"unsafe"
)
func main() {
var i uint32 = 0x01020304
//官方包
var ibyte = make([]byte, 4)
binary.LittleEndian.PutUint32(ibyte, i)
fmt.Printf("%v\n", ibyte)
//指针访问
var ibyte2 = make([]byte, 4)
pointer := unsafe.Pointer(&i)
pb := (*byte)(pointer)
ibyte2[0] = *pb
pb = (*byte)(unsafe.Pointer((uintptr)(pointer) + 1))
ibyte2[1] = *pb
pb = (*byte)(unsafe.Pointer((uintptr)(pointer) + 2))
ibyte2[2] = *pb
pb = (*byte)(unsafe.Pointer((uintptr)(pointer) + 3))
ibyte2[3] = *pb
fmt.Printf("%v\n", ibyte2)
}
显示:
[4 3 2 1]
[4 3 2 1]
结果和官方包是一致的。
大类型向小类型的强制转换结果和字节序有关吗?
不算大端还是小端,大类型向小类型的强制转换的结果是一样的,都是按照直观的字面视觉效果取最低有效位(最右字节)的值,也就是按照小端字节序理解即可。
在不同架构上运行以下代码,如在ppc和x86机器上运行。
#include <stdio.h>
#include <stdint.h>
void main(){
//H的16进制是0x48,10进制是72
//I的16进制是0x49,10进制是73
uint32_t a = 0x48020349;
printf("%c\n", *(char*)&a);
uint8_t b = (uint8_t)a;
printf("%d\n", b);
}
在x86上执行输出:
I
73
在ppc上执行输出:
H
73
可以看到:
按字符处理时,在x86上是小端序,在ppc上是大端序,
在向小类型转换时,都是输出73,也就是都是按的小端序,截取的最低有效位。
--end--