语音的Mfcc特征学习与理解
近来研究语音情感识别,在识别过程中提取用到了mfcc特征。就对其细致地研究了一下,在这过程中参看了别人的Blog.由于本人水平有限,难免出现错误,望大家批评指教。
1. 概念介绍
Mel频率导谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的分析是基于人的听觉机理,即根据人的听觉实验结果来分析语音的频谱,期望能获得好的语音的特性。
关于感知频率与实际频率的对应关系的表达式分别如下:
Fmel=1127*log(1+f/700); 及f=700.0*(exp(Fmel/1127-1));
2 . MFCC特征的具体的实现过程
由于语音信号的特殊性,一般情况下在分帧处理之前都需要对语音信号进行一些预处理(常见的如,加窗,预加重,分帧等处理),以获得短时的平稳信号。
2.1 针对提取出来的一帧语音信号对其进行快速傅里叶变化,得到其对应的频域的数据。这里对得到的fft的数据进行一下简单的介绍:
a. 假设我们事先知道样本音频的采样率为fs(通常音频常用的采用率有8000,16000,22500,44100等)。
b. 由于fft的数据中正负频率的对称性,我们只采取正频率进行研究处理。分帧时,假设每一帧有N个数据点,则这对应的频率应该为[0 :N/2]*fs/N,频率点的数量应该为(N/2+1)个,只考虑正频率部分,及0频率。其中X(i)=fft(x(i)),表示第i帧的FFT的数据。2.2 针对得到的