语音识别特征参数提取

方法一:线性预测分析(LPC)
假设系统的传递函数与全极点的数字滤波器是相似的,通常12-16个极点就可以描述语音信号的特征。所以对于n时刻的语音信号,可以用之前时刻的信号的线性组合近似的模拟,然后计算语音信号的采样值和线性预测的采样值,并让这两者之间达到均方的误差(MSE)最小,就可以得到LPC。
方法二:感知线性预测系数(PLP)
一种基于听觉模型的特征参数,该参数等效于LPC特征,也是全极点模型预测多项式的一组系数。不同之处是PLP基于人耳听觉,通过计算应用到频谱分析中,将输入语音信号经过人耳听觉模型处理,代替LPC所用的时域信号,优点是利于抗噪声语音特征的提取。
方法三:Tandem特征和Bottleneck特征
这是两种利用神经网络提取的两类特征。Tandem特征是神经网络输出层节点对应类别的后验概率向量降维并与MFCC或者PLP等特征拼接得到。Bottleneck特征是用一种特殊结构的神经网络提取,这种神经网络的其中一个隐含层节点数目比其他隐含层小的多,所以被称之为Bottleneck层,输出二点特征就是Bottleneck特征。
方法四:梅尔频率倒谱系数(MFCC)
基于人耳听觉特性,梅尔频率倒谱频带划分是在Mel刻度上等距划分的,频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性。
方法五:滤波器组的Fbank特征(Filter bank)/MFSC(应用较多)
Fbank特征的提取方式就是相当于MFCC去掉最后一步的离散余弦变换,跟MFCC特征相比,Fbank特征保留了更多的原始语音数据。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值