GMM-HMM语音识别

最新推荐文章于 2023-12-16 15:31:01 发布

跬步达千里

最新推荐文章于 2023-12-16 15:31:01 发布

阅读量3.2k

点赞数 1

分类专栏：声音处理（audio processing）

本文链接：https://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/51505318

版权

声音处理（audio processing）专栏收录该内容

15 篇文章 6 订阅

订阅专栏

现在假设知道了HMM模型中的一个状态（比如，孤立此识别中，这里一个状态代表一个词）对应的K个多维高斯的所有参数，则该GMM生成该状态（该词）上某一个观察向量（）的概率就出来了，即，知道了某个孤立词对应的K个高斯模型的所有参数，那么，就可以计算一帧观测值对于该词的概率。

以下是文献中提到的
机器学习&数据挖掘笔记_14（GMM-HMM语音识别简单理解）

为了对GMM-HMM在语音识别上的应用有个宏观认识，花了些时间读了下HTK（用htk完成简单的孤立词识别）的部分源码，对该算法总算有了点大概认识，达到了预期我想要的。不得不说，网络上关于语音识别的通俗易懂教程太少，都是各种公式满天飞，很少有说具体细节的，当然了，那需要有实战经验才行。下面总结以下几点，对其有个宏观印象即可（以孤立词识别为例）。

　　一、每个单词的读音都对应一个HMM模型，大家都知道HMM模型中有个状态集S，那么每个状态用什么来表示呢，数字？向量？矩阵？其实这个状态集中的状态没有具体的数学要求，只是一个名称而已，你可以用’1’, ’2’, ‘3’…表示，也可以用’a’, ‘b’, ’c ’表示。另外每个HMM模型中到底该用多少个状态，是通过先验知识人为设定的。

　　二、HMM的每一个状态都对应有一个观察值，这个观察值可以是一个实数，也可以是个向量，且每个状态对应的观察值的维度应该相同。假设现在有一个单词的音频文件，首先需要将其进行采样得到数字信息（A/D转换），然后分帧进行MFCC特征提取，假设每一帧音频对应的MFCC特征长度为39，则每个音频文件就转换成了N个MFCC向量（不同音频文件对应的N可能不同），这就成了一个序列，而在训练HMM模型的参数时（比如用Baum-Welch算法），每次输入到HMM中的数据要求就是一个观测值序列。这时，每个状态对应的观测值为39维的向量，因为向量中元素的取值是连续的，需要用多维密度函数来模拟，通常情况下用的是多维高斯函数。在GMM-HMM体系中，这个拟合函数是用K个多维高斯混合得到的。假设知道了每个状态对应的K个多维高斯的所有参数，则该GMM生成该状态上某一个观察向量（一帧音频的MFCC系数）的概率就可以求出来了。

　　三、对每个单词建立一个HMM模型，需要用到该单词的训练样本，这些训练样本是提前标注好的，即每个样本对应一段音频，该音频只包含这个单词的读音。当有了该单词的多个训练样本后，就用这些样本结合Baum-Welch算法和EM算法来训练出GMM-HMM的所有参数，这些参数包括初始状态的概率向量，状态之间的转移矩阵，每个状态对应的观察矩阵（这里对应的是GMM，即每个状态对应的K个高斯的权值，每个高斯的均值向量和方差矩阵）。

　　四、在识别阶段，输入一段音频，如果该音频含有多个单词，则可以手动先将其分割开（考虑的是最简单的方法），然后提取每个单词的音频MFCC特征序列，将该序列输入到每个HMM模型（已提前训练好的）中，采用前向算法求出每个HMM模型生成该序列的概率，最后取最大概率对应的那个模型，而那个模型所表示的单词就是我们识别的结果。

　　五、在建立声学模型时，可以用Deep Learning的方法来代替GMM-HMM中的GMM，因为GMM模拟任意函数的功能取决于混合高斯函数的个数，所以具有一定的局限性，属于浅层模型。而Deep Network可以模拟任意的函数，因而表达能力更强。注意，这里用来代替GMM的Deep Nets模型要求是产生式模型，比如DBN，DBM等，因为在训练HMM-DL网络时，需要用到HMM的某个状态产生一个样本的概率。

　　六、GMM-HMM在具体实现起来还是相当复杂的。

　　七、一般涉及到时间序列时才会使用HMM，比如这里音频中的语音识别，视频中的行为识别等。如果我们用GMM-HMM对静态的图片分类，因为这里没涉及到时间信息，所以HMM的状态数可设为1，那么此时的GMM-HMM算法就退化成GMM算法了。

跬步达千里

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
GMM-HMM语音识别

现在假设知道了HMM模型中的一个状态（比如，孤立此识别中，这里一个状态代表一个词）对应的K个多维高斯的所有参数，则该GMM生成该状态（该词）上某一个观察向量（）的概率就出来了，即，知道了某个孤立词对应的K个高斯模型的所有参数，那么，就可以计算一帧观测值对于该词的概率。以下是文献中提到的机器学习&数据挖掘笔记_14（GMM-HMM语音识别简单理解）为了对GMM-H
复制链接

扫一扫

专栏目录