MFCC 参数考虑了人耳的听觉特性,将频谱转化为基于梅尔频标的非线性频谱,然后转换到倒谱域上。由于充分考虑了人的听
觉特性,而且没有任何前提假设,MFCC 参数具有良好的识别性能和抗噪能力。
由于人类对于声音高低的的感知强度与该声音的频率的对数近似成正比,梅尔频率正是体现出了这种声音频率与人类感知声音高
低的对应关系。在梅尔频率域内,人对声音高低的感知程度是线性的,梅尔频率与语音频率的关系式如下:
f(mel)=2595*lg ( 1 + f / 700 )
主要过程有:
输入语音——预加重——分帧、加窗——FFT、|FFT|^2——mel滤波器组——ln( )、DCT——输出系数
(1).预加重:人说话时唇端辐射使高频能量丢失,预加重可以提升高频部分,使信号频谱变得平坦,利于分析。一般通过传递函数为的一阶高通滤波器来实现预加重,对应的差分方程为
。其中为 预加重系数,一般0.9<
<1.0。这里取0.98。
(2).分帧、加窗:由于发音器官的惯性运动,可认为语音在一小段时间(10