最近在做视频解封装的时候,遇到了struct这个模块的使用,查阅了一些文档,现在总结一下。
了解c/c++的人,一定会知道struct结构体在其中的作用:它定义了一种结构(可以理解为值类型),便于不同目的下使用时,封装新的数据类型。当传递一些复杂的数据结构的时候,需要有一种机制将某些特定的结构体类型打包成二进制流的字符串然后再网络传输,而接收端也应该可以通过某种机制进行解包还原出原始的结构体数据。python中的struct模块就提供了这样的机制,该模块的主要作用就是对Python值类型(如string, int, float等)与用Python string表示的C struct类型间的转化(This module performs conversions between Python values and C structs represented as Python strings.)。
在struct模块中,最重要也是最为常用的三个函数分别是pack(), unpack(), calcsize()。下面来举例介绍一下它们的用法:
pack unpack calcsize等函数的使用
struct.pack(fmt, v1, v2, …)
返回包含值v1,v2,…的字符串,并将其根据给定的参数fmt进行pack。这里,参数必须和值对位匹配。
比如pack('2h',1,2,3)
就会报错,因为format只有2个short型,不匹配。struct.pack_into(fmt, buffer, offset, v1, v2, …)
将v1,v2,…按指定的格式(fmt)进行Pack,将Packed字节写入到可写的buffer字符串中(需要指定offset——可理解为位置,注意offset不能省略)。struct.unpack(fmt, string)
根据指定格式Unpack字符串。返回的结果是元组(tuple)形式。注意,这里字符串必须包含足够的数据以确保len(string)与calcsize(fmt)相等。(The string must contain exactly the amount of data required by the format (len(string) must equal calcsize(fmt))。struct.unpack_from(fmt, buffer[, offset=0])
是pack_into的反向操作,参看下面的例子。struct.calcsize(fmt)
返回格式对应的C类型字节之和。
unpack和pack的例子
>>> from struct import *
>>> import binascii
>>> pack('hhl', 1, 2, 3)
'\x00\x01\x00\x02\x00\x00\x00\x03'
>>> unpack('hhl', '\x00\x01\x00\x02\x00\x00\x00\x03')
(1, 2, 3)
>>> calcsize('hhl') # 'hhl' 与 '2hl'是一样的。
8
>>> print binascii.hexlify('\x00\x01\x00\x02\x00\x00\x00\x03')
0001000200000003
这个例子是:先将数字1,2,3打包为一个pack,然后再用unpack解出来。calcsize()是计算它对应的长度。具体见下图:
2个h为2*2=4,1个l为4,所以和为8.
字节顺序、大小和对齐
默认情况下,Pack后的字节顺序默认上是由操作系统的决定的。struct模块提供了自定义字节顺序的功能,可以指定大端存储、小端存储等特定的字节顺序(通过在format的第一个位置处加上字符,默认是@
)
在format字符串前面加上特定的符号即可以表示不同的字节顺序存储方式,例如采用小端存储
s = struct.Struct(‘〈hhl’)就可以了。Python官方提供了相应的对照列表:
使用pack_into和unpack_from方法
使用二进制pack数据的场景大部分都是对性能要求比较高的使用环境。而在上面提到的pack方法都是对输入数据进行操作后重新创建了一个内存空间用于返回,也就是说我们每次pack都会在内存中分配出相应的内存资源,这有时是一种很大的性能浪费。struct模块还提供了pack_into() 和 unpack_from()的方法用来解决这样的问题,也就是对一个已经提前分配好的buffer进行字节的填充,而不会每次都产生一个新对象对字节进行存储。
对比使用pack方法,pack_into 一直是在对buffer对象进行操作,没有产生多余的内存浪费。另外需要注意的一点是,pack_into和unpack_from方法均是对string buffer对象进行操作,并提供了offset参数,用户可以通过指定相应的offset,使相应的处理变得更加灵活。例如,我们可以把多个对象pack到一个buffer里面,然后通过指定不同的offset进行unpack(这里的offset就是各个struct的size):
import ctypes
from struct import *
import binascii
values1 = ('abc', 1000, 8000)
values2 = ('defg', 101)
values3 = (8888, 1.6)
s1 = Struct('3sLL')
s2 = Struct('4sI')
s3 = Struct('Lf')
# 创建一个用于缓存内容的buffer
buffer = ctypes.create_string_buffer(s1.size + s2.size + s3.size)
print type(buffer)
# <class 'ctypes.c_char_Array_28'>
print 'Before :', binascii.hexlify(buffer)
s1.pack_into(buffer, 0, *values1)
s2.pack_into(buffer, s1.size, *values2)
s3.pack_into(buffer, s1.size + s2.size, *values3)
print 'After pack:', binascii.hexlify(buffer)
print s1.unpack_from(buffer, 0)
print s2.unpack_from(buffer, s1.size)
print s3.unpack_from(buffer, s1.size+s2.size)
输出:
<class 'ctypes.c_char_Array_28'>
Before : 00000000000000000000000000000000000000000000000000000000
After pack: 61626300e8030000401f00006465666765000000b8220000cdcccc3f
('abc', 1000, 8000)
('defg', 101)
(8888, 1.600000023841858)
值得注意,这里float的精度发生了改变(从1.6变为1.60000…),这是由一些比如操作系统等客观因素所决定的。
格式字符的顺序可能对大小有影响,因为满足对齐需求所需的填充是不同的
import ctypes
from struct import *
import binascii
pack('ci', '*', 0x12131415)
# '*\x00\x00\x00\x12\x13\x14\x15'
pack('ic', 0x12131415, '*')
# '\x12\x13\x14\x15*'
print calcsize('ci')
# 8
print calcsize('ic')
# 5