方法一:线性预测分析(LPC)
假设系统的传递函数与全极点的数字滤波器是相似的,通常12-16个极点就可以描述语音信号的特征。所以对于n时刻的语音信号,可以用之前时刻的信号的线性组合近似的模拟,然后计算语音信号的采样值和线性预测的采样值,并让这两者之间达到均方的误差(MSE)最小,就可以得到LPC。
方法二:感知线性预测系数(PLP)
一种基于听觉模型的特征参数,该参数等效于LPC特征,也是全极点模型预测多项式的一组系数。不同之处是PLP基于人耳听觉,通过计算应用到频谱分析中,将输入语音信号经过人耳听觉模型处理,代替LPC所用的时域信号,优点是利于抗噪声语音特征的提取。
方法三:Tandem特征和Bottleneck特征
这是两种利用神经网络提取的两类特征。Tandem特征是神经网络输出层节点对应类别的后验概率向量降维并与MFCC或者PLP等特征拼接得到。Bottleneck特征是用一种特殊结构的神经网络提取,这种神经网络的其中一个隐含层节点数目比其他隐含层小的多,所以被称之为Bottleneck层,输出二点特征就是Bottleneck特征。
方法四:梅尔频率倒谱系数(MFCC)
基于人耳听觉特性,梅尔频率倒谱频带划分是在Mel刻度上等距划分的,频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性。
方法五:滤波器组的Fbank特征(Filter bank)/MFSC(应用较多)
Fbank特征的提取方式就是相当于MFCC去掉最后一步的离散余弦变换,跟MFCC特征相比,Fbank特征保留了更多的原始语音数据。
语音识别特征参数提取
最新推荐文章于 2024-04-28 11:17:04 发布