WAV文件格式详解

最新推荐文章于 2025-04-07 15:39:17 发布

imxiangzi

最新推荐文章于 2025-04-07 15:39:17 发布

阅读量8w

点赞数 54

分类专栏：音频

本文链接：https://blog.csdn.net/imxiangzi/article/details/80265978

版权

音频专栏收录该内容

33 篇文章

订阅专栏

本文详细介绍了WAV文件格式，包括RIFF区块、FORMAT区块和DATA区块的解析，以及小端存储方式。WAV是无损音频格式，通常用于保存原始音频数据，其采样率、声道数和采样值决定了音频的质量。通过对WAV文件的结构理解，可以进行音频数据的读取和处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

.概述

Waveform Audio File Format（WAVE，又或者是因为WAV后缀而被大众所知的），它采用RIFF（Resource Interchange File Format）文件格式结构。通常用来保存PCM格式的原始音频数据，所以通常被称为无损音频。但是严格意义上来讲，WAV也可以存储其它压缩格式的音频数据。

常见的声音文件主要有两种，分别对应于单声道（11.025KHz 采样率、8Bit 的采样值）和双声道（44.1KHz 采样率、16Bit 的采样值）。采样率是指：声音信号在“模→数”转换过程中单位时间内采样的次数。采样值是指每一次采样周期
内声音模拟信号的积分值。

对于单声道声音文件，采样数据为八位的短整数（short int 00H-FFH）；而对于双声道立体声声音文件，每次采样数据为一个16位的整数（int），高八位和低八位分别代表左右两个声道。

1. 音频简介

经常见到这样的描述: 44100HZ 16bit stereo 或者 22050HZ 8bit mono 等等.

44100HZ 16bit stereo: 每秒钟有 44100 次采样, 采样数据用 16 位(2字节)记录, 双声道(立体声);

22050HZ 8bit mono: 每秒钟有 22050 次采样, 采样数据用 8 位(1字节)记录, 单声道;

当然也可以有 16bit 的单声道或 8bit 的立体声, 等等。

采样率是指：声音信号在“模→数”转换过程中单位时间内采样的次数。采样值是指每一次采样周期内声音模拟信号的积分值。

对于单声道声音文件，采样数据为八位的短整数（short int 00H-FFH）；

而对于双声道立体声声音文件，每次采样数据为一个16位的整数（int），高八位(左声道)和低八位(右声道)分别代表两个声道。

人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做 20000 个采样, 回放时就足可以满足人耳的需求. 所以 22050 的采样频率是常用的, 44100已是CD音质, 超过48000的采样对人耳已经没有意义。这和电影的每秒 24 帧图片的道理差不多。

每个采样数据记录的是振幅, 采样精度取决于储存空间的大小:

1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;

2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;

4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.

如果是双声道(stereo), 采样就是双份的, 文件也差不多要大一倍.

这样我们就可以根据一个 wav 文件的大小、采样频率和采样大小估算出一个 wav 文件的播放长度。

譬如 "Windows XP 启动.wav" 的文件长度是 424,644 字节, 它是 "22050HZ / 16bit / 立体声" 格式(这可以从其 "属性->摘要" 里看到),

那么它的每秒的传输速率(位速, 也叫比特率、取样率)是 22050*16*2 = 705600(bit/s), 换算成字节单位就是 705600/8 = 88200(字节/秒),
播放时间：424644(总字节数) / 88200(每秒字节数) ≈ 4.8145578(秒)。

但是这还不够精确, 包装标准的 PCM 格式的 WAVE 文件(*.wav)中至少带有 42 个字节的头信息, 在计算播放时间时应该将其去掉,
所以就有：(424644-42) / (22050*16*2/8) ≈ 4.8140816(秒). 这样就比较精确了.

关于声音文件还有一个概念: "位速", 也有叫做比特率、取样率, 譬如上面文件的位速是 705.6kbps 或 705600bps, 其中的 b 是 bit, ps 是每秒的意思;

压缩的音频文件常常用位速来表示, 譬如达到 CD 音质的 MP3 是: 128kbps / 44100HZ.

2.格式解析

WAV文件遵循RIFF规则，其内容以区块（chunk）为最小单位进行存储。WAV文件一般由3个区块组成：RIFF chunk、Format chunk和Data chunk。另外，文件中还可能包含一些可选的区块，如：Fact chunk、Cue points chunk、Playlist chunk、Associated data list chunk等。
本文将只介绍RIFF chunk、Format chunk和Data chunk。

常见的wave文件的格式图示

2.1 RIFF区块

名称	偏移地址	字节数	端序	内容
ID	0x00	4Byte	大端	'RIFF' (0x52494646)
Size	0x04	4Byte	小端	fileSize - 8
Type	0x08	4Byte	大端	'WAVE'(0x57415645)

以'RIFF'为标识
Size是整个文件的长度减去ID和Size的长度
Type是WAVE表示后面需要两个子块：Format区块和Data区块

2.2 FORMAT区块

名称	偏移地址	字节数	端序	内容
ID	0x00	4Byte	大端	'fmt ' (0x666D7420)
Size	0x04	4Byte	小端	16
AudioFormat	0x08	2Byte	小端	音频格式
NumChannels	0x0A	2Byte	小端	声道数
SampleRate	0x0C	4Byte	小端	采样率
ByteRate	0x10	4Byte	小端	每秒数据字节数
BlockAlign	0x14	2Byte	小端	数据块对齐
BitsPerSample	0x16	2Byte	小端	采样位数

以'fmt '为标识
Size表示该区块数据的长度（不包含ID和Size的长度）
AudioFormat表示Data区块存储的音频数据的格式，PCM音频数据的值为1
NumChannels表示音频数据的声道数，1：单声道，2：双声道
SampleRate表示音频数据的采样率
ByteRate每秒数据字节数 = SampleRate * NumChannels * BitsPerSample / 8
BlockAlign每个采样所需的字节数 = NumChannels * BitsPerSample / 8
BitsPerSample每个采样存储的bit数，8：8bit，16：16bit，32：32bit

［注意］这个区域只需要关心 NumChannels SampleRate BitsPerSample 三个参数就可以了，其它的都是依据这三个计算出来的。

2.3 DATA区块

名称	偏移地址	字节数	端序	内容
ID	0x00	4Byte	大端	'data' (0x64617461)
Size	0x04	4Byte	小端	N
Data	0x08	NByte	小端	音频数据

以'data'为标识
Size表示音频数据的长度，N = ByteRate * seconds
Data音频数据

对于Data块，根据声道数和采样率的不同情况，布局如下（每列代表8bits）：

1. 8 Bit 单声道：

采样1	采样2
数据1	数据2

2. 8 Bit 双声道

采样1		采样2
声道1数据1	声道2数据1	声道1数据2	声道2数据2

1. 16 Bit 单声道：

采样1		采样2
数据1低字节	数据1高字节	数据1低字节	数据1高字节

2. 16 Bit 双声道

采样1
声道1数据1低字节	声道1数据1高字节	声道2数据1低字节	声道2数据1高字节
采样2
声道1数据2低字节	声道1数据2高字节	声道2数据2低字节	声道2数据2高字节

下面我们看一个具体的例子，声音文件如下：

52 49 46 46 24 08 00 00 57 41 56 45 
66 6d 74 20 10 00 00 00 01 00 02 00 
22 56 00 00 88 58 01 00 04 00 10 00 
64 61 74 61 00 08 00 00 00 00 00 00 
24 17 1e f3 3c 13 3c 14 16 f9 18 f9 
34 e7 23 a6 3c f2 24 f2 11 ce 1a 0d

对应的分析如下图所示：