hmm 求隐藏序列_hmm隐藏状态是什么?

隐藏状态是抽象出来的概念,目前我没有见到过哪篇论文或教材对其进行过准确的解释。我个人理解,由于语音信号在一个长时间断内(比如一秒以上)是非平稳信号,而在一个较短的时间内则可近似看做平稳的(比如50毫秒)。平稳信号的特点在于信号的频谱分布是稳定的,不同时间段的频谱分布相似。隐马尔可夫模型将一小段频谱相似的连续信号归为一个隐状态。隐马尔可夫模型的训练过程是最大化似然度,每一个状态产生的数据用一个概率分布表示。只有当相似的连续信号尽可能被归为同一个状态,似然度才能尽可能的大。

为了能够更加形象的说明隐状态的含义,我举个例子。下面这张图片是一个单词的时频谱图,横坐标为时间,纵坐标为频率,图中的每个像素点的强度表示在某一时刻,某一频率下信号的强度;每个像素点的信号强度用颜色表示,蓝色部分的信号强度最弱,红色部分强度次之,白色强度最高。

可以看到在整个时间窗口内(大约240毫秒),信号在初始时刻的各频率的强度分布和中间段,以及末尾段各频率的强度分布是有着很大的差距的。但是如果我们用黑色的虚线将信号分成8小段(如图所示),在这一小段时间内各频率的强度分布大致是相似的。因此我们可以将这个音频看做由8个隐状态的hmm模型产生的,每个隐状态产生的信号对应着这8段中的一段信号,每个隐状态负责对频谱相似的一小段信号进行建模。

我这里为了说明隐状态的含义只是手动的对音频进行分段,而真实hmm-gmm模型的训练任务就是通过EM算法自动的对数据进行分段,每一小段数据用一个隐状态进行建模。

hmm-gmm模型的训练只需要给出语音段的文本标注即可,不需要隐状态序列的标注。但是hmm-dnn的训练则需要隐状态序列的标注,该标注是通过hmm-gmm+音频生成的。实际上hmm-dnn的训练只是对dnn进行训练而已,其中的hmm模型是从hmm-gmm那里复制过来的,而不是和dnn一起训练得到的。而dnn的训练则需要隐状态标注。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值