美尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)的分析是基于人的听觉特性机理,即根据人的听觉实验结果来分析语音的频谱。因为人耳所听到的声音的高低与声音的频率并不成线性正比关系,所以用Mel频率尺度更符合人耳的听觉特性。美尔频率尺度的值大体上对应于实际频率的对数分布关系,其与实际频率的具体关系可用下式表示:
式中,Fmel是以美尔(Mel)为单位的感知频率;f是以Hz为单位的实际频率。临界频率带宽随着频率的变化而变化,并与Mel频率的增长一致,在1000Hz以下,大致呈线性分布,带宽为100Hz左右;在1000Hz以上呈对数增长。类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即美尔滤波器组,如图所示。
在语音的频谱范围内设置若干带通滤波器Hm(k),0≤m≤M,M为滤波器的个数。每个滤波器具有三角形滤波特性,其中心频率为f(m),在Mel频率范围内,这些滤波器是等带宽的。每个带通滤波器的传递函数为
其中,
美尔滤波器的中心频率f(m)定义为
其中,f和f分别为滤波器组的最高频率和最低频率;f为采样频率;单位为Hz。M是滤波
器组的数目;N为FFT变换的点数,式中。
在MATLAB中,melbankm函数可用于计算Mel滤波器组。函数定义如下:
调用格式:
h =melbankm(p,n,fs,fl,fh,w)
输入参数:fs是采样频率;fl是设计的滤波器的最低频率;fh是设计的滤波器的最高频率(fl和fh都需要用fs进行归一化);p是设计的Mel滤波器的个数;n是一帧FFT后数据的长度;w是窗函数('t'代表三角窗;'n'代表汉宁窗;'m'代表汉明窗)。输出参数:h是滤波器的频域响应,是一个p×(n/2+1)的数组,p为滤波器个数,每个滤波器的响应曲线长n/2+1,相当于取正频率的部分。
参考文献:
语音信号处理实验教程;梁瑞宇、赵力、魏昕(编著)
MATLAB语音信号分析与合成(第二版);宋知用(编著)