1、如何处理二进制文件?
实际案例:
wav是一种音频文件的格式,音频文件为二进制文件。
wav文件由头部信息和音频采样数据构成,前44个字节为头部信息,包含声道数、采样频率、PCM位宽等等,后面是音频采样数据。
使用python分析一个wav文件头部信息,处理音频数据。
WAV格式如下:
简单分为两部分,第一部分前44个字节是音频文件的一些信息,第二部分44个字节后面是音频文件的采样数据。
解决方案:
open函数想以二进制模式打开文件,指定mode参数为'b'。
二进制数据可以用fromfile(Python2中可以使用readinto),读入到提前分配好的buffer中,便于数据处理。
解析二进制数据可以使用标准库中的struct模块的unpack方法。
2、代码演示
(1)struct.unpack方法简单使用
# 以二进制形式打开文件
f = open('微信语音视频.wav', 'rb')
# 读取前44字节
info = f.read(44)
print(info)
import struct
'''
struct.unpack方法介绍:
unpack(format, buffer)
format:解析类型
buffer:需要解析二进制串
例: 构造两个字节的二进制串,format默认为小端字节顺序,
h为16为,结果:2*256+1=513
struct.unpack('h', b'\x01\x02')
指定format为大端字节顺序,结果:256+2=258
struct.unpack('>h', b'\x01\x02')
'''
# print(help(struct.unpack))
# 解析声道数,Num Channels为22到24字节
print(struct.unpack('h', info[22:24]))
# 解析采样频率,SampleRate为24到28字节,i为int类型
print(struct.unpack('i', info[24:28]))
# 编码宽度,BitsPerSample为34到36字节
print(struct.unpack('h', info[34:36]))
(2)实现二进制文件wav的处理
# _*_ encoding:utf-8 _*_
import array
'''
读取data数据部分不希望是字符串形式,因为字符串不支持数学运算,
对它不方便数据处理,最好读取到类似于C语言中数组中去
'''
# 修改文件指针移动到文件末尾
f.seek(0, 2)
# 报告文件指针,也就是文件大小
print(f.tell())
# 数组的长度为文件字节长度减去44个字节,除2为采样宽度
n = (f.tell() - 44) // 2
# 创建数组,储存data部分数据
buf = array.array('h', [])
# 将文件的数据读入到buf当中,不返回字符串
f.seek(44)
buf.fromfile(f, n)
print(buf[0])
print(len(buf))
# 将采样缩小一定程度,最终体现就是声音变小
for i in range(n):
buf[i] //= 8
# 将数据存入到一个新文件
f2 = open('demo.wav', 'wb')
f2.write(info)
buf.tofile(f2)
f2.close()