MFCC梅尔倒谱系数

原创 2013年12月05日 20:09:26

MFCC梅尔倒谱系数是说话人识别、语音识别中最为常用的特征。我曾经对这个特征困惑了很久,包括为什么步骤中要取对数,为什么要最后一步要做DCT等等,以下将把我的理解记录下来,我找到的参考文献中最有价值的要数【1】了。是CUM一个教授做的PPT。


整个流程如下:

时域的波形图如下


图1. 时域波形图


第一步

获得语谱图,语谱图是一个非常有力的工具,因为人耳就是进行的频率分析。


图2. 语谱图


第二步

经过梅尔滤波器组。为什么要经过梅尔滤波器组?答:上面的图需要降维。根据生理学的发现,上面的语谱图实际上可以用经过一系列的梅尔滤波器组来进行降维。


图3. 梅尔滤波器组

滤波后的图像如下,假如一共有24个滤波器组,那么在下图在纵向上就降成了24维。


图4. 经过梅尔滤波器组后的频谱图


第三步

取对数。为什么要取对数?解答如下。

人类的发声系统发出的信号是由基音信息与声道信息卷积而成。记作"s卷积v"

经过语谱图FFT变换后,卷积变成了乘法。即"FFT(s)*FFT(v)"。

取对数后,乘法变成了加法。即"Log(FFT(s))+Log(FFT(v))"

把卷积信号转换成加性信号,这就是取FFT和对数的原因。


图5. 取对数后


第四步

DCT(离散余弦变换)

在上一步中,我们成功地把基音信息与声道信息变成了加性的。那么如何分离呢?它们有如下性质:

频谱图中(注意是一帧FFT变换内)

(1)基音信息在频域是快速变化的。

(2)声道信息在频域是缓慢变化的。

因此再做一次DCT可以将其分离。我们称之为"倒谱域"。因此倒谱域的低频部分刻画了声道信息,高频部分刻画了基音信息。为什么是DCT而不是FFT?因为DCT变换之后的值仍为实数,因此更方便。


图6. DCT变换后


第五步

对DCT变换后的谱图进行降维。

(1)去掉第0维,因为第0维只是图5的均值,并不包含任何信息。

(2)去掉13-24维,因为DCT本身就是用来去相关的,而图5没有太高频的成分,因此可以去掉。


图7. 降维后的MFCC谱图


图7就是最终的MFCC特征了!


小结

1. MFCC特征适用于说话人分类、语音识别,并且已经有了较好的识别结果。

2. 虽然MFCC是个不错的特征,但是同时也丢掉了很多细节(图2至图4的过程),因此并不是非常完美。


参考资料

【1】http://download.csdn.net/detail/richard2357/6664585 (CMU的PPT,写的非常详细,我看过这个之后才真正理解)


语音信号处理之(四)梅尔频率倒谱系数(MFCC)

语音信号处理之(四)梅尔频率倒谱系数(MFCC)zouxy09@qq.comhttp://blog.csdn.net/zouxy09        这学期有《语音信号处理》这门课,快考试了,所以也要了...
  • zouxy09
  • zouxy09
  • 2013年06月23日 21:05
  • 86267

梅尔频率倒谱系数(MFCC)的提取过程与C++代码实现

MFCC参数提取步骤 ——>预加重 ——>分帧 ——>对每一帧加窗 ——>对每一帧补零 ——>各帧信号的FFT变换及其功率谱 ——>梅尔滤波(通过40个滤波器) ——>取对数 ——>DCT变换 ——>...
  • Xiao13Yu14
  • Xiao13Yu14
  • 2015年07月21日 20:38
  • 4781

MFCC 梅尔频率倒谱系数

推荐到我的主页 http://www.poodar.me去查看相关信息。 TERM: MFCC 梅尔频率倒谱系数 在任何的自动语音识别系统中,第一步一般都是提取特征,也就是识别出音频信...
  • AMDS123
  • AMDS123
  • 2017年06月04日 19:39
  • 675

语音信号处理之(四)梅尔频率倒谱系数(MFCC)

在任意一个Automatic speech recognition 系统中,第一步就是提取特征。换句话说,我们需要把音频信号中具有辨识性的成分提取出来,然后把其他的乱七八糟的信息扔掉,例如背景噪声啊,...
  • u010384318
  • u010384318
  • 2013年08月17日 10:48
  • 3837

梅尔频率倒谱系数(MFCC)讲解

这几天搞一搞关于MFCC的东西,看到这篇文章非常好,所以转载下。 转自:http://blog.csdn.net/zouxy09 在任意一个Automatic speech recognition ...
  • u013538664
  • u013538664
  • 2014年04月01日 14:20
  • 3247

利用梅尔倒谱系数(MFCC)及空间聚类算法实现音色识别

写在前面 2016年4月参加了哈尔滨工业大学深圳研究生院举办的创新创业比赛,司职算法组长,切入点定在了音色识别和相似明星音才艺展示推荐算法上,不才,拿到了一等奖,趁佳节未散与大家分享。 项目进度安...
  • u013576018
  • u013576018
  • 2017年02月08日 12:47
  • 1107

梅尔频率倒谱系数(MFCC)教程

The first step in any automatic speech recognition system is to extract features i.e. identify the c...
  • MRX220518
  • MRX220518
  • 2017年05月26日 17:40
  • 388

语音信号的同态处理、倒谱分析和Mel频率倒谱系数

1 同态处理 信号的同态处理也称同态滤波。大概步骤为: f(x,y)→ln→DFT→H(u,v)→(DFT)-1→exp→g(x,y) 虽然,一般用于图像处理。但是,博主将同态滤波用于语音信号的...
  • qq_18124075
  • qq_18124075
  • 2017年02月02日 18:36
  • 578

Mel频率倒谱系数

一、概述 MFCC:Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的缩写。Mel(美尔)是主观音高的单位,而Hz(赫兹)则是客观音高的单位。...
  • witsgreat
  • witsgreat
  • 2015年09月22日 09:16
  • 666

MFCC(Mel 倒谱系数)

Mel倒谱系数 Mel倒谱系数:MFCC   Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient)的缩写是MFCC,Mel频率是基于人耳听觉...
  • fanmengmeng1
  • fanmengmeng1
  • 2015年10月09日 15:20
  • 1754
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:MFCC梅尔倒谱系数
举报原因:
原因补充:

(最多只允许输入30个字)