浅析Python中的struct模块

原文链接: https://www.cnblogs.com/coser/archive/2011/12/17/2291160.html
      最近在学习python网络编程这一块,在写简单的socket通信代码时,遇到了struct这个模块的使用,当时不太清楚这到底有和作用,后来查阅了相关资料大概了解了,在这里做一下简单的总结。

    了解c语言的人,一定会知道struct结构体在c语言中的作用,它定义了一种结构,里面包含不同类型的数据(int,char,bool等等),方便对某一结构对象进行处理。而在网络通信当中,大多传递的数据是以二进制流(binary data)存在的。当传递字符串时,不必担心太多的问题,而当传递诸如int、char之类的基本数据的时候,就需要有一种机制将某些特定的结构体类型打包成二进制流的字符串然后再网络传输,而接收端也应该可以通过某种机制进行解包还原出原始的结构体数据。python中的struct模块就提供了这样的机制,该模块的主要作用就是对python基本类型值与用python字符串格式表示的C struct类型间的转化(This module performs conversions between Python values and C structs represented as Python strings.)。stuct模块提供了很简单的几个函数,下面写几个例子。

1、基本的pack和unpack

    struct提供用format specifier方式对数据进行打包和解包(Packing and Unpacking)。例如:

?
1
2
3
4
5
6
7
8
9
10
11
12
import struct
import binascii
values = ( 1 , 'abc' , 2.7 )
s = struct.Struct( 'I3sf' )
packed_data = s.pack( * values)
unpacked_data = s.unpack(packed_data)
 
print 'Original values:' , values
print 'Format string :' , s. format
print 'Uses :' , s.size, 'bytes'
print 'Packed Value :' , binascii.hexlify(packed_data)
print 'Unpacked Type :' , type (unpacked_data), ' Value:' , unpacked_data

输出:

Original values: (1, 'abc', 2.7)
Format string : I3sf
Uses : 12 bytes
Packed Value : 0100000061626300cdcc2c40
Unpacked Type : <type 'tuple'>  Value: (1, 'abc', 2.700000047683716)

代码中,首先定义了一个元组数据,包含int、string、float三种数据类型,然后定义了struct对象,并制定了format‘I3sf’,I 表示int,3s表示三个字符长度的字符串,f 表示 float。最后通过struct的pack和unpack进行打包和解包。通过输出结果可以发现,value被pack之后,转化为了一段二进制字节串,而unpack可以把该字节串再转换回一个元组,但是值得注意的是对于float的精度发生了改变,这是由一些比如操作系统等客观因素所决定的。打包之后的数据所占用的字节数与C语言中的struct十分相似。定义format可以参照官方api提供的对照表:

image

2、字节顺序

   另一方面,打包的后的字节顺序默认上是由操作系统的决定的,当然struct模块也提供了自定义字节顺序的功能,可以指定大端存储、小端存储等特定的字节顺序,对于底层通信的字节顺序是十分重要的,不同的字节顺序和存储方式也会导致字节大小的不同。在format字符串前面加上特定的符号即可以表示不同的字节顺序存储方式,例如采用小端存储 s = struct.Struct(‘<I3sf’)就可以了。官方api library 也提供了相应的对照列表:

image

3、利用buffer,使用pack_into和unpack_from方法

  使用二进制打包数据的场景大部分都是对性能要求比较高的使用环境。而在上面提到的pack方法都是对输入数据进行操作后重新创建了一个内存空间用于返回,也就是说我们每次pack都会在内存中分配出相应的内存资源,这有时是一种很大的性能浪费。struct模块还提供了pack_into() 和 unpack_from()的方法用来解决这样的问题,也就是对一个已经提前分配好的buffer进行字节的填充,而不会每次都产生一个新对象对字节进行存储。

?
1
2
3
4
5
6
7
8
9
10
11
12
import struct
import binascii
import ctypes
 
values = ( 1 , 'abc' , 2.7 )
s = struct.Struct( 'I3sf' )
prebuffer = ctypes.create_string_buffer(s.size)
print 'Before :' ,binascii.hexlify(prebuffer)
s.pack_into(prebuffer, 0 , * values)
print 'After pack:' ,binascii.hexlify(prebuffer)
unpacked = s.unpack_from(prebuffer, 0 )
print 'After unpack:' ,unpacked

输出:

Before : 000000000000000000000000
After pack: 0100000061626300cdcc2c40
After unpack: (1, 'abc', 2.700000047683716)
对比使用pack方法打包,pack_into 方法一直是在对prebuffer对象进行操作,没有产生多余的内存浪费。另外需要注意的一点是,pack_into和unpack_from方法均是对string buffer对象进行操作,并提供了offset参数,用户可以通过指定相应的offset,使相应的处理变得更加灵活。例如,我们可以把多个对象pack到一个buffer里面,然后通过指定不同的offset进行unpack:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import struct
import binascii
import ctypes
 
values1 = ( 1 , 'abc' , 2.7 )
values2 = ( 'defg' , 101 )
s1 = struct.Struct( 'I3sf' )
s2 = struct.Struct( '4sI' )
 
prebuffer = ctypes.create_string_buffer(s1.size + s2.size)
print 'Before :' ,binascii.hexlify(prebuffer)
s1.pack_into(prebuffer, 0 , * values1)
s2.pack_into(prebuffer,s1.size, * values2)
print 'After pack:' ,binascii.hexlify(prebuffer)
print s1.unpack_from(prebuffer, 0 )
print s2.unpack_from(prebuffer,s1.size)

输出:

Before : 0000000000000000000000000000000000000000
After pack: 0100000061626300cdcc2c406465666765000000
(1, 'abc', 2.700000047683716)
('defg', 101)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: struct模块的unpack函数用于将二进制数据解包成Python对象。它的语法为:struct.unpack(format, buffer)。其,format是解包时使用的格式字符串,buffer是要解包的二进制数据。解包后的结果是一个元组,其每个元素对应一个解包后的值。 ### 回答2: Pythonstruct模块是用于处理二进制数据的一个强大的模块,它提供了一种轻松快速地在Python程序处理各种二进制数据格式的方法。 在struct模块,unpack()函数是一个十分重要的函数,它可以将二进制数据解析并转换为Python的变量类型。 unpack()函数的语法如下: struct.unpack(format, buffer) 其,format参数是一个字符串,表示待解析的二进制数据的格式,它是由一些字母和数字组成的。buffer参数则是一个字节数组或者字节串,表示需要解析的二进制数据。 在format字符串,不同的字母和数字表示不同的数据类型和大小。例如,字母“i”表示一个有符号的整数,数字“4”表示该整数占用的字节数。 在使用unpack()函数时,需要根据待解析的二进制数据的格式指定相应的format字符串,然后将待解析的二进制数据作为buffer参数传入。unpack()函数将会返回一个元组,其包含了按照format字符串解析后得到的各个值。这些值的类型和顺序与format字符串的说明相对应。 需要注意的是,如果待解析的二进制数据的实际格式与指定的format字符串不一致,那么unpack()函数将会抛出一个struct.error异常,因此,在使用unpack()函数时一定要确保指定的format字符串与实际的二进制数据格式相匹配。 总之,使用Pythonstruct模块的unpack()函数可以方便地将二进制数据解析为Python的变量类型,从而方便地进行数据处理和操作。 ### 回答3: Pythonstruct模块提供解析字节串(bytes)和打包成字节串的函数,是进行二进制数据处理的重要模块之一。其,unpack函数可以将字节串解析成Python对象,用于读取和解析来自二进制文件、网络连接等的数据。 unpack函数的基本语法为: struct.unpack(format, buffer) 其,format是解析字节串的格式码,buffer是需要解析的字节串。 格式码(format)包括一个或多个类型字符,用来指定解析字节串的数据类型和顺序。常用的数据类型包括整型、浮点型、字符型、字节型等,例如: ‘i’表示整型; ‘f’表示单精度浮点型; ‘s’表示字符串(需指定长度); ‘b’表示有符号字节型; ‘H’表示无符号短整型等。 在解析字节串时,需要使用与打包时相同的格式码,按照顺序解析出各个数据成员,并将它们转换成对应的Python对象。例如,以下是一个解析包含一个整型和一个字符型的字节串的示例代码: import struct data = b'\x01A' i, c = struct.unpack('i1s', data) print(i, c) 解析结果为: 1 b'A' 在解析时,将‘i’和‘1s’格式码传递给unpack函数,程序按照解析顺序依次将字节串的两个数据成员解析成Python对象,返回一个包含两个Python对象的元组。在本例,字节串第一个字节表示整型1,第二个字节表示字符‘A’,故输出结果为1和‘A’。 需要注意的是,在解析字节串时,需要按照打包时指定的顺序和格式码进行解析,否则会导致数据解析错误。因此,在数据传输和存储时,需要使用相同的打包和解析格式码,保证数据的正确传输和解析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值