python struct结构体
使用方式
import struct
有的时候需要用python处理二进制数据,比如,存取文件,socket操作时.这时候,可以使用python的struct模块来完成.可以用 struct来处理c语言中的结构体.
struct 模块中最重要的三个函数是 pack(), unpack(), calcsize()
方法名称 | 含义 |
---|---|
pack(fmt, v1, v2, …) | 按照给定的格式(fmt),把数据封装成字符串(实际上是类似于c结构体的字节流) |
unpack(fmt, string) | 按照给定的格式(fmt)解析字节流string,返回解析出来的tuple |
calcsize(fmt) | 计算给定的格式(fmt)占用多少字节的内存 |
struct 中支持的格式如下表:
Format | C Type | Python | 字节数 |
---|---|---|---|
x | pad byte | no value | 1 |
c | char | string of length 1 | 1 |
b | signed char | integer | 1 |
B | unsigned char | integer | 1 |
? | _Bool | bool | 1 |
h | short | integer | 2 |
H | unsigned short | integer | 2 |
i | int | integer | 4 |
I (大写的 i) | unsigned int | integer or long | 4 |
l (小写的 L) | long | integer | 4 |
L | unsigned long | long | 4 |
q | long long | long | 8 |
Q | unsigned long long | long | 8 |
f | float | float | 4 |
d | double | float | 8 |
s | char[] | string | 1 |
p | char[] | string | 1 |
P | void * | long | 4 |
- _Bool在C99中定义,如果没有这个类型,则将这个类型视为char,一个字节;
- q和Q只适用于64位机器;
- 每个格式前可以有一个数字,表示这个类型的个数,如s格式表示一定长度的字符串,4s表示长度为4的字符串;4i表示四个int;
- P用来转换一个指针,其长度和计算机相关;
- f和d的长度和计算机相关;
为了同c中的结构体交换数据,还要考虑有的c或c++编译器使用了字节对齐,通常是以4个字节为单位的32位系统,故而struct根据本地机器字节顺序转换.可以用格式中的第一个字符来改变对齐方式.定义如下:
Character | Byte order | Size and alignment |
---|---|---|
@ | native | native 凑够4个字节 |
= | native | standard 按原字节数 |
< | little-endian | standard 按原字节数 |
> | big-endian | standard 按原字节数 |
! | network (= big-endian) | standard 按原字节数 |
使用方法是放在fmt的第一个位置,就像 '@5s6sif’
使用出现问题
问题:无法用json.loads()
解析数据。
现象:但是将收到的数据复制粘贴成字符串就可以接续出来。纠结了很久才发现,两个长度不一样。
str是看不出来的,于是就转换成了bytes,发现
收到的数据为:
<class ‘bytes’>
b’\r\n\r\n\x00\x00\x00\x00\x00\x00\x00\x00{\r\n\t"author": “app”\r\n}’
而复制出来的字符串没有\x00
原代码
self.data = self.request.recv(1024).decode('UTF-8', 'ignore').strip()
1
其中strip()
只能去掉\r,\\n,\t
,无法去掉\x00
。
解决办法:
在源码后添加strip(b'\x00'.decode())
即可。
最终代码:
self.data = self.request.recv(1024).decode('UTF-8', 'ignore').strip().strip(b'\x00'.decode())
Python 读写文件的二进制数据比 C/C++ 语言复杂得多。主要差别在于需要进行 bytes 类型和其它基础数据类型(比如 int/float)的转换。
转换工具在一般情况下都是使用 struct 库。
读出数据
在 open 函数中使用 rb 作为 mode 打开文件,再用 struct.unpack 函数解析 bytes 数据。
具体可以参考 open 函数和 stuct.unpack 函数的说明。
数据文件中二进制数据如下图所示:
import struct
# rb 表示以二进制形式打开文件
with open(r"~/test.data", mode="rb") as f:
# 移至指定字节位置
f.seek(3)
# 读入 16 个字节
a = f.read(16)
# 打印 a 类型 bytes
print(type(a))
# 打印 a 内字节数目
print(len(a))
# 打印 a 内数据,以 16 进制数显示
print(a)
# 16 个字节解析为 4 个 unsigned short 数据和 2 个 unsigned int 数据,字节排序为小端,返回元组
val_tuple = struct.unpack("<4H2I", a) # 如果解析 1 个数据,则应当读取与数据存储空间大小一致的字节数目,unpack 仍返回元组
print(val_tuple)
# 将元组转为 list
val_list = list(val_tuple)
print(val_list)
# rb 表示以二进制形式打开文件
with open(r"~/test.data", "rb") as f:
# 读入 4 个字节
a = f.read(4)
# 小端有符号整数
b = int.from_bytes(a, byteorder='little', signed=True)
print(b)
print(type(b))