关于HMM的相关论文(2)-声学模型

本文简述了HMM在声学模型中的应用,重点介绍了特征提取,如MFCC和PLP编码。还探讨了HMM的三状态模型,其中涉及条件独立假设和EM算法在参数估计中的使用。特征向量通常包含梅尔倒谱系数、一阶和二阶差分,用于补偿HMM的条件独立性假设。
摘要由CSDN通过智能技术生成

本文中关于论文的部分不是逐字逐句翻译的,有的是按照对论文的理解,自己说的,有不准确的地方,欢迎指正。
接上回,2.1节 Feature Extracion(特征提取)
特征提取阶段旨在提供语音波形的compact representation。This form should minimise the loss of information that discriminates between words, and provide a good match with the distributional assumptions made by the acoustic models.举例,如果将对角协方差高斯分布用于状态输出分布,feature应该被设计为高斯和不相关的。

Feature vectors are typically computed every 10 ms using an overlapping analysis window of around 25 ms.(语音信号是变化快的,傅里叶变换适用于分析平稳的信号语音。信号分帧,每帧做傅里叶变换。一般帧长取20~50ms,一帧内有足够多的周期,又不变化剧烈。每帧信号通常要与一个平滑的窗函数相乘,这样可取得更高质量的频谱。帧和帧之间的时间差常取为10ms,这样帧与帧之间会有重叠。否则,由于帧与帧连接处的信号会因为加窗而被弱化,这部分的信息就丢失了。)

最简单常用的编码方式是梅尔倒谱系数,即MFCC。These are generated by applying a truncated discrete cosine transformation (DCT离散余弦变换) to a log spectral estimate computed by smoothing an FFT with around 20 frequency bins distributed non-linearly across the speech spectrum. 非线性的频率范围通常被称之为梅尔范围(mel scale), 符合人耳的听觉特性。DCT是为了平滑频谱估计并且对特征元素去相关。经过余弦变换,第一个元素表示频带的对数能量平均值。这有时会被帧的对数能量所取代,或者完全删除。

Further psychoacoustic constraints are incorporated into a related encoding called perceptual linear prediction (PLP感知线性预测). PLP根据感知加权的非线性压缩功率谱来计算线性预测系数,然后将线性预测系数转换为倒谱系数。PLP根据感知加权的非线性压缩功率来计算线性预测系数ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值