语音的Mfcc特征学习与理解

语音的Mfcc特征学习与理解
近来研究语音情感识别,在识别过程中提取用到了mfcc特征。就对其细致地研究了一下,在这过程中参看了别人的Blog.由于本人水平有限,难免出现错误,望大家批评指教。
1. 概念介绍
Mel频率导谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的分析是基于人的听觉机理,即根据人的听觉实验结果来分析语音的频谱,期望能获得好的语音的特性。
关于感知频率与实际频率的对应关系的表达式分别如下:

Fmel=1127*log(1+f/700); 及f=700.0*(exp(Fmel/1127-1));

2 . MFCC特征的具体的实现过程
由于语音信号的特殊性,一般情况下在分帧处理之前都需要对语音信号进行一些预处理(常见的如,加窗,预加重,分帧等处理),以获得短时的平稳信号。

2.1 针对提取出来的一帧语音信号对其进行快速傅里叶变化,得到其对应的频域的数据。这里对得到的fft的数据进行一下简单的介绍:
a. 假设我们事先知道样本音频的采样率为fs(通常音频常用的采用率有8000,16000,22500,44100等)。
b. 由于fft的数据中正负频率的对称性,我们只采取正频率进行研究处理。分帧时,假设每一帧有N个数据点,则这对应的频率应该为[0 :N/2]*fs/N,频率点的数量应该为(N/2+1)个,只考虑正频率部分,及0频率。其中X(i)=fft(x(i)),表示第i帧的FFT的数据。

2.2 针对得到的

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值