一、首先让我们借用并澄清几个语音学中的概念
1.临界频带与听觉掩蔽
听觉临界频带:设纯音频率为,用噪声(设频率为)掩蔽纯音时,在噪声湮没的纯音的过程中,起作用的是频率在以内的噪声,称为临界频带。即当噪声的频率处于上述区间时,人耳会听不见该纯音,即此频率的噪声对该纯音的听觉造成掩蔽。而频率在区间之外的噪声,人耳可以正常察觉纯音,即不会发生掩蔽。
2.Mel频率尺度
人耳对音调的感知度,不随着频率(Hz)的加倍而加倍,但频率在Mel尺度内,人对音调的主观感知度与声音的频率则为线性关系。MFCC考虑了人耳的听觉特性,且没有任何前提假设[9]。普通频率转换为Mel频率的公式为:
3.滤波器组
将语音信号映射到Mel尺度,并根据人耳所具有的临界频带特性的数学实现,是将每帧语音信号的功率谱,用通过一个如图所示的滤波器组的方法完成的。
典型的滤波器组是由24个三角形带通滤波器构成的。每个带通滤波器具有的中心频率和频带便是人耳的临界频带和听觉掩蔽特性的反映;且在不同的频率上,每个带通滤波器的带宽是不同的,但在Mel尺度内,则都是等带宽的。
所以,该滤波器组是通过给每帧的语音信号的功率谱加权而模拟人耳的听觉特性的。注意:滤波器组的低频段较密,高频段较稀疏,这个目的是为了提升低频段的能量。
二、特征参数提取的目标
特征参数提取的目标,顾名思义,就应该使相同的语音之间的差别尽可能的小,不同的语音之间的差异尽可能的大。在基于语音的线性模型的下,语音的形成可看做为声门激励与声道的耦合——卷积形成的,即:
其中,x(n)为语音信号,h(n)为声道,e(n)为激励。
我们的任务是在现有的语音中分离声道和激励,即将卷积运算变换成加法运算。
作FFT后,可得到:
在x(n)的频谱X(k)中,包络的峰值为共振峰,表示语音的主要频率成分,共振峰携带了的声道特性,频谱的细节部分反应了激励源的信息,对上式取对数得:
若此处用一个低通滤波器ÿ