基于HMM的语音识别(二)

本文深入探讨了基于HMM的语音识别中特征提取的过程,包括MFCC和PLP编码方式。特征向量通常通过约25ms的重叠分析窗计算,MFCC利用截断离散余弦变换和平滑谱估计。此外,还介绍了HMM声学模型,每个单词被分解为基本音素序列,通过连续密度的HMM模型描述,使用EM算法估计参数。文章指出单音素模型难以捕捉上下文相关变量,通过三音素建模和决策树算法改善这一问题。
摘要由CSDN通过智能技术生成

今天进入特征提取部分,原文的2.1部分,进入正题。

特征提取阶段试图提供语音波形的紧凑形式(这里我理解不是很好,往下看)。这种形式最大限度的减少单词间的区分信息的丢失,并且与声学模型的分布假设进行良好的匹配。比如,如果对角协方差高斯分布用于状态输出分布,那么这些特征应该被设计为高斯并且是不相关的。

通常使用约25ms的重叠分析窗每10ms计算一次特征向量。其中最简单也是最常用的编码方式是梅尔倒谱系数也就是大名鼎鼎的MFCC。这些是利用截断离散余弦变换生成一个对数谱估计,该对数谱是利用平滑一个大约20个频段非线性分布的语谱的傅立叶变换得到的。非线性的频率范围通常被称之为梅尔范围(mel scale),他很逼近人耳的响应。DCT之所以被利用是为了平滑谱估计并且对特征元素去相关。经过余弦变换,第一个元素表示频带的对数能量平均值。这有时会被帧的对数能量所取代,或者完全删除。

进一步的约束被嵌入到感知线性预测(PLP)中。PLP根据感知加权的非线性压缩功率谱来计算线性预测系数,然后将线性预测系数转换为倒谱系数。PLP根据感知加权的非线性压缩功率来计算线性预测系数,然后将线性预测系数转换为倒谱系数。在实际应用中,PLP比MFCC在嘈杂的环境里有更好的表现,所以PLP一般是更好的编码方式。

除了倒谱系数以外,一阶和二阶回归系数通常也被添加到启发式的尝试中,以补偿由基于HMM的声学模型产生的条件独立性假设。如果原始的特征向量为yt^s,那么delta参数为:


其中n是窗口长度,wi是回归系数。delta-delta系数同理,当我们把上述放在一起时候如下:


最后的结果是一个大约40维度的特征向量,他们平行但是不是完全相互独立。

【PS:这段其实说的并不是很仔细,或者很清楚,因为MFCC其实是一个大的专题,并不是这一两句能说清楚的,我日后如果有机会会做一篇MFCC的文章,并且把程序写出来放到git,这里暂且先这么认为,我们在梳理】

HMM声学模型

正如我们前面所说的,我们说的每个单词wk都可以分解为Kw个基本因素的序列。这个序列我们称之为发音:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值