hmm 求隐藏序列_hmm隐藏状态是什么？

最新推荐文章于 2024-06-27 08:49:26 发布

weixin_39949954

最新推荐文章于 2024-06-27 08:49:26 发布

阅读量423

点赞数

文章标签： hmm 求隐藏序列

本文链接：https://blog.csdn.net/weixin_39949954/article/details/111546545

版权

隐藏状态是抽象出来的概念，目前我没有见到过哪篇论文或教材对其进行过准确的解释。我个人理解，由于语音信号在一个长时间断内(比如一秒以上)是非平稳信号，而在一个较短的时间内则可近似看做平稳的(比如50毫秒)。平稳信号的特点在于信号的频谱分布是稳定的，不同时间段的频谱分布相似。隐马尔可夫模型将一小段频谱相似的连续信号归为一个隐状态。隐马尔可夫模型的训练过程是最大化似然度，每一个状态产生的数据用一个概率分布表示。只有当相似的连续信号尽可能被归为同一个状态，似然度才能尽可能的大。

为了能够更加形象的说明隐状态的含义，我举个例子。下面这张图片是一个单词的时频谱图，横坐标为时间，纵坐标为频率，图中的每个像素点的强度表示在某一时刻，某一频率下信号的强度；每个像素点的信号强度用颜色表示，蓝色部分的信号强度最弱，红色部分强度次之，白色强度最高。

可以看到在整个时间窗口内(大约240毫秒)，信号在初始时刻的各频率的强度分布和中间段，以及末尾段各频率的强度分布是有着很大的差距的。但是如果我们用黑色的虚线将信号分成8小段(如图所示)，在这一小段时间内各频率的强度分布大致是相似的。因此我们可以将这个音频看做由8个隐状态的hmm模型产生的，每个隐状态产生的信号对应着这8段中的一段信号，每个隐状态负责对频谱相似的一小段信号进行建模。

我这里为了说明隐状态的含义只是手动的对音频进行分段，而真实hmm-gmm模型的训练任务就是通过EM算法自动的对数据进行分段，每一小段数据用一个隐状态进行建模。

hmm-gmm模型的训练只需要给出语音段的文本标注即可，不需要隐状态序列的标注。但是hmm-dnn的训练则需要隐状态序列的标注，该标注是通过hmm-gmm+音频生成的。实际上hmm-dnn的训练只是对dnn进行训练而已，其中的hmm模型是从hmm-gmm那里复制过来的，而不是和dnn一起训练得到的。而dnn的训练则需要隐状态标注。