语音识别中的MFCC的提取原理和MATLAB实现

一、首先让我们借用并澄清几个语音学中的概念

1.临界频带与听觉掩蔽

听觉临界频带:设纯音频率为,用噪声(设频率为)掩蔽纯音时,在噪声湮没的纯音的过程中,起作用的是频率在以内的噪声,称为临界频带。即当噪声的频率处于上述区间时,人耳会听不见该纯音,即此频率的噪声对该纯音的听觉造成掩蔽。而频率在区间之外的噪声,人耳可以正常察觉纯音,即不会发生掩蔽。

2.Mel频率尺度

人耳对音调的感知度,不随着频率(Hz)的加倍而加倍,但频率在Mel尺度内,人对音调的主观感知度与声音的频率则为线性关系。MFCC考虑了人耳的听觉特性,且没有任何前提假设[9]。普通频率转换为Mel频率的公式为:

1478993-20180928223320352-1314042189.png

3.滤波器组

将语音信号映射到Mel尺度,并根据人耳所具有的临界频带特性的数学实现,是将每帧语音信号的功率谱,用通过一个如图所示的滤波器组的方法完成的。

1478993-20180928223221652-1398046723.png

典型的滤波器组是由24个三角形带通滤波器构成的。每个带通滤波器具有的中心频率和频带便是人耳的临界频带和听觉掩蔽特性的反映;且在不同的频率上,每个带通滤波器的带宽是不同的,但在Mel尺度内,则都是等带宽的。

所以,该滤波器组是通过给每帧的语音信号的功率谱加权而模拟人耳的听觉特性的。注意:滤波器组的低频段较密,高频段较稀疏,这个目的是为了提升低频段的能量。

二、特征参数提取的目标

特征参数提取的目标,顾名思义,就应该使相同的语音之间的差别尽可能的小,不同的语音之间的差异尽可能的大。在基于语音的线性模型的下,语音的形成可看做为声门激励与声道的耦合——卷积形成的,即:

1478993-20180928224528396-761521532.png

其中,x(n)为语音信号,h(n)为声道,e(n)为激励。

我们的任务是在现有的语音中分离声道和激励,即将卷积运算变换成加法运算。

作FFT后,可得到:

1478993-20180928225846185-721396262.png

在x(n)的频谱X(k)中,包络的峰值为共振峰,表示语音的主要频率成分,共振峰携带了的声道特性,频谱的细节部分反应了激励源的信息,对上式取对数得:

1478993-20180928225822164-86666865.png

若此处用一个低通滤波器ÿ

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值