地址位与数据位、大端和小端字节序、字节序转换-CSDN博客

本文链接：https://blog.csdn.net/only_write_bug/article/details/148603350

一、地址位与数据位

在计算机系统中，尤其是在内存和CPU之间传输数据时，我们通常需要两个关键信息：地址位（Address Bits） 和 数据位（Data Bits）。

地址位（Address Bits）：
- 地址位用于指定数据在内存中的位置（即内存地址）。
- 每个内存单元都有一个唯一的地址，地址位就是用来选择这个特定内存单元的。
- 地址位的宽度决定了系统的可寻址内存空间大小。例如：
  - 32位系统：地址总线宽度为32位，可寻址空间为2^32字节（4GB）。
  - 64位系统：地址总线宽度为64位，可寻址空间为2^64字节（这是一个非常大的数字）。
数据位（Data Bits）：
- 数据位用于表示在特定地址上存储的实际数据。
- 数据位的宽度通常与计算机的字长（word size）相关，例如32位系统的数据总线宽度通常为32位，64位系统为64位。
- 每次内存读写操作可以传输的数据量取决于数据总线的宽度。例如，32位数据总线一次可以传输4字节（32位）的数据。

内存访问示例

假设我们有一个32位系统，内存地址从0到0xFFFFFFFF（4GB）。当CPU需要从内存地址0x1000读取数据时：

CPU将地址0x1000放到地址总线上（通过32位地址线传送）。
内存控制器根据地址总线上的地址，定位到0x1000位置。
然后，数据总线会将该地址上的32位数据（4字节）传送回CPU。

二、大端和小端字节序（Endianness）

字节序是指多字节数据在内存中存储的顺序。主要有两种：大端字节序（Big-Endian） 和 小端字节序（Little-Endian）。

1. 大端字节序（Big-Endian）

定义：最高有效字节（Most Significant Byte, MSB）存储在最低的内存地址处。

示例：32位整数0x12345678（十六进制）在内存中的存储（假设起始地址为0x1000）：

地址      数据
0x1000   0x12   (最高有效字节)
0x1001   0x34
0x1002   0x56
0x1003   0x78   (最低有效字节)

特点：符合人类阅读习惯（从左到右，高位到低位）。
使用场景：网络传输（TCP/IP协议规定使用大端字节序，称为网络字节序）、某些处理器架构（如PowerPC、Motorola 68000）。

2. 小端字节序（Little-Endian）

定义：最低有效字节（Least Significant Byte, LSB）存储在最低的内存地址处。

示例：同一个整数0x12345678在小端字节序中的存储：

地址      数据
0x1000   0x78   (最低有效字节)
0x1001   0x56
0x1002   0x34
0x1003   0x12   (最高有效字节)

特点：计算机处理更自然，因为从低位开始处理，方便加法等运算。
使用场景：x86/x86-64架构、ARM（通常可配置）等。

3. 为什么会有两种字节序？

历史原因：不同处理器厂商选择了不同的设计。
性能考虑：小端序在类型转换时无需调整字节顺序（例如32位整数转16位整数，直接取低地址部分即可）。
网络传输：为了统一，网络协议规定使用大端序，因此程序在发送数据前需要将主机字节序转换为网络字节序，接收时再转换回来。

4. 如何判断当前系统的字节序？

可以使用以下C代码来检测：

#include <stdio.h>

int main() {
    unsigned int num = 0x12345678;
    unsigned char *p = (unsigned char *)&num;

    if (*p == 0x78) {
        printf("Little-Endian\n");
    } else if (*p == 0x12) {
        printf("Big-Endian\n");
    } else {
        printf("Unknown\n");
    }

    return 0;
}

5. 网络编程中的字节序转换

在网络编程中，为了保证不同字节序的主机能够正确通信，需要使用以下函数进行转换（位于arpa/inet.h或winsock2.h）：

htons()：将16位（短整型）从主机字节序转换为网络字节序。
htonl()：将32位（长整型）从主机字节序转换为网络字节序。
ntohs()：将16位从网络字节序转换回主机字节序。
ntohl()：将32位从网络字节序转换回主机字节序。

示例：

uint16_t host_port = 8888;
uint16_t net_port = htons(host_port); // 主机字节序转网络字节序

三、总结

地址位：指定内存位置。
数据位：存储的实际数据。
字节序：多字节数据在内存中的存储顺序。
- 大端：高字节在前（低地址）。
- 小端：低字节在前（低地址）。
网络编程中必须注意字节序转换，使用标准库函数处理。

理解这些概念对于底层编程、网络编程和跨平台开发至关重要。

详解地址位与数据位

1. 地址位 (Address Bits)

定义：
地址位是用于标识内存位置的二进制位，组成内存地址的二进制数字。每个地址位代表一个内存单元的标识符。

核心特性：

寻址能力：n位地址总线可寻址 2ⁿ 个内存单元
地址空间：
- 32位系统：4GB 地址空间 (2³² = 4,294,967,296 地址)
- 64位系统：16EB 地址空间 (2⁶⁴ = 18,446,744,073,709,551,616 地址)
物理实现：
- CPU → 内存控制器 → 内存芯片
- 地址总线宽度决定最大可寻址内存

示例：

32位系统访问内存地址 0x12345678：
地址位：0001 0010 0011 0100 0101 0110 0111 1000
对应内存单元：存储该位置的数据

2. 数据位 (Data Bits)

定义：
数据位是存储在内存单元中的实际内容的二进制表示，即处理器操作的实际值。

核心特性：

存储能力：m位数据总线一次可传输 m/8 字节
数据类型表示：
- 8位：char (1字节)
- 16位：short (2字节)
- 32位：int/float (4字节)
- 64位：double/long (8字节)
物理实现：
- 数据总线宽度决定单次传输量
- 现代系统通常64位数据总线（一次传8字节）

内存访问过程：

CPU发送地址位到地址总线
内存控制器定位对应单元
数据位通过数据总线传输

地址位 [0x1000] → 内存单元 → 返回数据位 [01000001] (ASCII 'A')

详解字节序（大端/小端）

1. 问题背景

当数据位超过8位（1字节）时，在内存中如何排列多个字节？

2. 大端字节序 (Big-Endian)

定义：
最高有效字节（MSB）存储在最低内存地址

特点：

人类可读顺序：类似十进制书写（高位在前）
网络标准：TCP/IP协议使用大端（网络字节序）
硬件支持：PowerPC, SPARC, Motorola 68000

内存布局示例（32位整数 0x12345678）：

内存地址  存储内容
0x1000   0x12  (最高字节)
0x1001   0x34
0x1002   0x56
0x1003   0x78  (最低字节)

3. 小端字节序 (Little-Endian)

定义：
最低有效字节（LSB）存储在最低内存地址

特点：

计算效率高：加法/乘法从低位开始处理
主流架构：x86/x64, ARM（可配置）, RISC-V
类型转换便捷：32位→16位直接取低地址

内存布局示例（同数值 0x12345678）：

内存地址  存储内容
0x1000   0x78  (最低字节)
0x1001   0x56
0x1002   0x34
0x1003   0x12  (最高字节)

4. 对比示意图

        Big-Endian           Little-Endian
地址    数据     解释         数据     解释
0x1000: 0x12 → 最高位       0x78 → 最低位
0x1001: 0x34               0x56
0x1002: 0x56               0x34
0x1003: 0x78 → 最低位       0x12 → 最高位

5. 实际影响场景

网络编程：

// 发送前必须转换
uint32_t host = 0x12345678;
uint32_t net = htonl(host); // 主机→网络字节序

文件格式：
- JPEG/TIFF：大端序
- BMP：小端序

内存查看：

int num = 0x12345678;
char* p = (char*)#
// 小端系统输出：78 56 34 12

跨平台数据交换：
- 必须统一字节序或使用文本格式

6. 检测系统字节序

#include <stdio.h>

int main() {
    int num = 1;
    char *p = (char *)#
    
    if (*p == 1) {
        printf("Little-Endian\n");
    } else {
        printf("Big-Endian\n");
    }
    
    return 0;
}

7. 转换函数（网络编程）

函数	方向	位宽
`htons()`	主机→网络	16位
`ntohs()`	网络→主机	16位
`htonl()`	主机→网络	32位
`ntohl()`	网络→主机	32位

使用示例：

uint16_t port = 8888;
uint16_t net_port = htons(port); // 主机序→网络序

8. 特殊案例：混合字节序

PDP-11中端序：16位内部小端，32位按两个大端16位存储
ARM双端序：可通过配置寄存器切换模式

总结对比表

特性	大端序 (Big-Endian)	小端序 (Little-Endian)
存储顺序	高位在低地址	低位在低地址
可读性	优	差
计算效率	一般	优（x86架构）
类型转换	复杂	简单
主流应用	网络协议、Java虚拟机	x86/ARM处理器、Windows/Linux
内存查看	0x12 0x34 0x56 0x78	0x78 0x56 0x34 0x12
数值0x1234在内存	0x12 (低地址), 0x34 (高地址)	0x34 (低地址), 0x12 (高地址)

关键原则：在涉及多字节数据存储/传输时，必须明确字节序约定。网络通信必须使用大端序（网络字节序），文件格式需按规范实现，跨平台数据交换建议使用文本格式或显式转换。

9、网络编程中字节序使用

字节序转换的核心目的是解决不同字节序系统之间的数据交换问题。由于网络协议规定使用大端字节序（网络字节序），因此：

发送数据前：必须将主机字节序转换为网络字节序
接收数据后：必须将网络字节序转换为主机字节序

转换函数（在<arpa/inet.h>或<winsock2.h>中）：

16位数据（如端口号）：
uint16_t htons(uint16_t hostshort); // 主机序转网络序
uint16_t ntohs(uint16_t netshort); // 网络序转主机序
32位数据（如IPv4地址）：
uint32_t htonl(uint32_t hostlong); // 主机序转网络序
uint32_t ntohl(uint32_t netlong); // 网络序转主机序

注意：函数命名规则：
h: host（主机）
n: network（网络）
s: short（16位）
l: long（32位）

转换示例：
假设我们在小端机器上（如x86）有一个16位端口号8888（主机字节序表示为0x22B8，但在内存中存储为0xB8,0x22）：

使用htons转换后，得到网络字节序（大端）为0x22B8，在内存中存储为0x22,0xB8。
发送时按0x22,0xB8的顺序发送。
接收方收到后，如果是大端机器，则直接使用；如果是小端机器，则用ntohs转换回0xB8,0x22（内存表示）。

实际编程步骤：

发送端（主机序→网络序）：
- 将端口号用htons转换
- 将IP地址用htonl转换（如果是点分十进制字符串，需先用inet_addr转换为32位整数）
接收端（网络序→主机序）：
- 接收到的端口号用ntohs转换
- 接收到的IP地址用ntohl转换（然后可以用inet_ntoa转换为字符串）

示例代码片段（客户端连接设置）：

// 设置服务器地址结构
struct sockaddr_in server_addr;
memset(&server_addr, 0, sizeof(server_addr));
server_addr.sin_family = AF_INET;
// 将点分十进制IP转换为32位整数（网络字节序）
server_addr.sin_addr.s_addr = inet_addr("192.168.1.1");
// 将本地端口号（主机序）转换为网络字节序
server_addr.sin_port = htons(8888);

// 连接
connect(sock, (struct sockaddr*)&server_addr, sizeof(server_addr));

接收端（服务器接收后转换）：

// 接收客户端地址
struct sockaddr_in client_addr;
socklen_t addr_len = sizeof(client_addr);
int client_sock = accept(server_sock, (struct sockaddr*)&client_addr, &addr_len);

// 打印客户端IP和端口（转换为主机字节序）
printf("Client connected from %s:%d\n", 
       inet_ntoa(client_addr.sin_addr),   // sin_addr已经是网络字节序的32位IP，inet_ntoa内部会处理字节序？
       ntohs(client_addr.sin_port));      // 端口必须用ntohs转换

注意：关于inet_addr和inet_ntoa：

inet_addr：将点分十进制字符串（如"192.168.1.1"）转换为32位的网络字节序整数（即大端）。
inet_ntoa：将网络字节序的32位IP地址转换为点分十进制字符串。注意：这个函数内部会自动处理字节序问题吗？实际上，它要求输入的地址必须是网络字节序（大端），然后它输出一个点分十进制字符串，无论主机是什么字节序，它都正确。所以，我们传入的必须是网络字节序的地址（即接收到的地址，或者inet_addr转换的结果）。

但是，在打印端口时，我们必须用ntohs转换，因为端口在地址结构中是网络字节序。

重要：结构体sockaddr_in中的sin_port和sin_addr都是网络字节序。所以：

当我们给它们赋值时，应该使用网络字节序（通过htons/htonl转换）
当我们从中取值时，应该转换为主机字节序（通过ntohs/ntohl转换）

例如：

在服务器绑定端口时，我们需要将本地端口（主机序）用htons转换后赋给sin_port。
在客户端连接后，服务器通过accept获得客户端的地址结构，其中的sin_port是网络字节序，所以打印前要用ntohs转换。

64位数据的转换？

标准库没有提供64位的转换函数，但可以自行实现：
uint64_t htonll(uint64_t value) {
// 判断当前字节序
static const int num = 42;
if (reinterpret_cast<const char>(&num) == num) {
// 小端系统，需要转换
return (static_cast<uint64_t>(htonl(value & 0xFFFFFFFF)) << 32) | htonl(value >> 32);
} else {
// 大端系统，无需转换
return value;
}
}
uint64_t ntohll(uint64_t value) { // 同样调用htonll即可，因为转换是对称的
return htonll(value);
}

或者使用系统提供的宏（如果可用）：
#if defined(linux)
#include <endian.h>
#define htonll(x) htobe64(x)
#define ntohll(x) be64toh(x)
#elif defined(APPLE)
#include <libkern/OSByteOrder.h>
#define htonll(x) OSSwapHostToBigInt64(x)
#define ntohll(x) OSSwapBigToHostInt64(x)
#endif

最后，注意数据对齐问题：
在发送结构体时，除了考虑字节序，还要考虑不同平台的对齐方式差异。通常，我们会将结构体打包（如使用#pragma pack(1)）并逐字段转换字节序。

总结步骤：