语音识别特征参数提取

最新推荐文章于 2024-04-28 11:17:04 发布

爱学习的小姜

最新推荐文章于 2024-04-28 11:17:04 发布

阅读量962

点赞数

文章标签：语音识别机器学习人工智能

本文链接：https://blog.csdn.net/m0_60116633/article/details/122614126

版权

方法一：线性预测分析（LPC）
假设系统的传递函数与全极点的数字滤波器是相似的，通常12-16个极点就可以描述语音信号的特征。所以对于n时刻的语音信号，可以用之前时刻的信号的线性组合近似的模拟，然后计算语音信号的采样值和线性预测的采样值，并让这两者之间达到均方的误差（MSE）最小，就可以得到LPC。
方法二：感知线性预测系数（PLP）
一种基于听觉模型的特征参数，该参数等效于LPC特征，也是全极点模型预测多项式的一组系数。不同之处是PLP基于人耳听觉，通过计算应用到频谱分析中，将输入语音信号经过人耳听觉模型处理，代替LPC所用的时域信号，优点是利于抗噪声语音特征的提取。
方法三：Tandem特征和Bottleneck特征
这是两种利用神经网络提取的两类特征。Tandem特征是神经网络输出层节点对应类别的后验概率向量降维并与MFCC或者PLP等特征拼接得到。Bottleneck特征是用一种特殊结构的神经网络提取，这种神经网络的其中一个隐含层节点数目比其他隐含层小的多，所以被称之为Bottleneck层，输出二点特征就是Bottleneck特征。
方法四：梅尔频率倒谱系数（MFCC）
基于人耳听觉特性，梅尔频率倒谱频带划分是在Mel刻度上等距划分的，频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性。
方法五：滤波器组的Fbank特征（Filter bank）/MFSC(应用较多)
Fbank特征的提取方式就是相当于MFCC去掉最后一步的离散余弦变换，跟MFCC特征相比，Fbank特征保留了更多的原始语音数据。

爱学习的小姜

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
语音识别特征参数提取

方法一：线性预测分析（LPC）假设系统的传递函数与全极点的数字滤波器是相似的，通常12-16个极点就可以描述语音信号的特征。所以对于n时刻的语音信号，可以用之前时刻的信号的线性组合近似的模拟，然后计算语音信号的采样值和线性预测的采样值，并让这两者之间达到均方的误差（MSE）最小，就可以得到LPC。方法二：感知线性预测系数（PLP）一种基于听觉模型的特征参数，该参数等效于LPC特征，也是全极点模型预测多项式的一组系数。不同之处是PLP基于人耳听觉，通过计算应用到频谱分析中，将输入语音信号经过人耳听觉模型
复制链接

扫一扫