写在前面
本篇文章主要分以下三个部分讲述:
- wav语音的格式及其内容
- 语音的预处理
- 语音的特征及特征提取
语音的格式及其内容
首先了解以下wav文件的主要规范格式
注释:RIFF全称为资源互换文件格式(Resources Interchange File Format),是Windows下大部分多媒体文件遵循的一种文件结构。RIFF文件所包含的数据类型由该文件的扩展名来标识,能以RIFF格式存储的数据有:wav、avi、RID等。
根据RIFF规范,对于一个wav格式的语音,一般含有以下的几个要素:
![b1794979bbbe3ed5d38f8cd057194d49.png](https://img-blog.csdnimg.cn/img_convert/b1794979bbbe3ed5d38f8cd057194d49.png)
- ChunkID:块号
- ChunkSize:块大小
- Format:格式
- AudioFormat:音频格式
- NumChannels:通道数
- SampleRate:采样率
- ByteRate:速率
Chunk是RIFF文件的基本单元,其基本结构如下:
struct
</