语音信号是一种常见的时间序列,它以离散信号的形式被编码,然后使用一定的文件格式来存储,例如”.wav”。在当前与语音有关的应用中,出了单纯的录制、不做任何处理之后播放之外,几乎所有的应用都要涉及到语音特征的提取,例如语音文本转换、说话人识别、语音情感识别等等。此外,在进行音乐信息检索(MIR)的时候,也需要类似的处理。
语音特征提取就是从数字信号中提取出与我们所要得到的主要信息相关的内容,一般会从视域和频域两个不同的角度去进行。这些特征可以从不同的角度去分类。
通常,在进行特征提取之前,都要对原始序列做一系列的预处理。哪些预处理是必需的呢?常用的有以下几个:
- 声道转换(channel conversion)
- 预加重(pre-emphasis)
- 重采样(resample)
- 组帧(framing)
- 加窗(windowing)
……
可以完全按照上述的先后顺序进行这五种预处理方法。下面是详细内容:
1.声道转换
如果所要提取的语音特征不区分声道,则必须将多声道的语音转换成单声道。假设一个多声道语音序列为x(n)有c个声道,c=1,..,C.则每个声道对应的序列分别为:
…,要把它转换成单声道语音,只需要求得其算数平均值就行了。