语音的Mfcc特征学习与理解

最新推荐文章于 2022-12-11 22:07:11 发布

浪迹成都

最新推荐文章于 2022-12-11 22:07:11 发布

阅读量1.8k

点赞数

分类专栏：语音信号处理文章标签： MFCC-特征分析

本文链接：https://blog.csdn.net/u012246313/article/details/44463613

版权

本文介绍了MFCC（Mel Frequency Cepstrum Coefficient）在语音情感识别中的应用，详细阐述了MFCC的计算过程，包括预处理、FFT、Mel滤波器、DCT等步骤，并提供了一个MFCC特征提取的网址供参考。

摘要由CSDN通过智能技术生成

语音的Mfcc特征学习与理解
近来研究语音情感识别，在识别过程中提取用到了mfcc特征。就对其细致地研究了一下，在这过程中参看了别人的Blog.由于本人水平有限，难免出现错误，望大家批评指教。
1. 概念介绍
Mel频率导谱系数（Mel Frequency Cepstrum Coefficient,MFCC）的分析是基于人的听觉机理，即根据人的听觉实验结果来分析语音的频谱，期望能获得好的语音的特性。
关于感知频率与实际频率的对应关系的表达式分别如下：

Fmel=1127*log(1+f/700); 及f=700.0*(exp(Fmel/1127-1));

2 . MFCC特征的具体的实现过程
由于语音信号的特殊性，一般情况下在分帧处理之前都需要对语音信号进行一些预处理（常见的如，加窗，预加重，分帧等处理），以获得短时的平稳信号。

2.1 针对提取出来的一帧语音信号对其进行快速傅里叶变化，得到其对应的频域的数据。这里对得到的fft的数据进行一下简单的介绍：
a. 假设我们事先知道样本音频的采样率为fs(通常音频常用的采用率有8000,16000,22500,44100等)。
b. 由于fft的数据中正负频率的对称性，我们只采取正频率进行研究处理。分帧时，假设每一帧有N个数据点，则这对应的频率应该为[0 :N/2]*fs/N，频率点的数量应该为（N/2+1）个，只考虑正频率部分，及0频率。其中X(i)=fft(x(i)),表示第i帧的FFT的数据。

2.2 针对得到的