关于HMM的相关论文的理解（1）

最新推荐文章于 2020-05-22 17:18:15 发布

mengjianmuzi

最新推荐文章于 2020-05-22 17:18:15 发布

阅读量683

点赞数

本文链接：https://blog.csdn.net/mengjianmuzi/article/details/99635863

版权

最近在看论文The Application of Hidden Markov Models in Speech Recognition，英文的文献，大家有兴趣可以去看一下。看了这篇论文一部分之后，尝试进行这一部分的讲解，发现说的不是很好，知识不连贯，一些问题没有深究，对论文的理解并没有自己想象中的好。所以本次想尝试在此篇文章中讨论一下对论文的理解，算是一种知识巩固吧。自己理解，难免有不恰当的地方，欢迎大家一起讨论。
摘要和第一章主要简单介绍了一下HMM，就不进行复述了。来看第二章Architecture of an HMM-Based Recogniser
a large vocabulary continuous speech recognition大词汇量连续语音识别器主要组成部分如图2.1：
在这里插入图片描述
其中Y是特征提取过程中产生的，麦克风输入的声波转换成一系列大小固定的声学矢量 Y₁：T = y₁， …， y_T 。解码器尝试找到产生上述声学矢量可能性最大的一组词w_1:L = w₁,…,w_L即求下面公式的值：
对公式进行一下解释：argmax(f(x))是使得 f(x)取得最大值所对应的变量点x(或x的集合)。对于我们的公式来说是求使得P(w|Y)取得最大值所对应的w。

在这里插入图片描述
然而，因为直接对P(w|Y)建模是困难的，可以将上述式子转换为一个等价的式子，式子是等价的式子，通过贝叶斯转换，将在分母上的P(Y)作为常量可以省去。式子中的p(Y|w)是声学模型决定的，P(w)是语言模型决定的。在这里插入图片描述
声音的基本单位是音素phone。举个例子，bat由/b/ /ae/ /t/三个音素组成。对于任何给定的w,相对应的声学模型是通过串联音素模型合成的，是为了生成发音字典定义的词。音素模型的参数是通过训练语音和orthographic transcriptions的数据得到的。语言模型通常是N-gram模型，每个词的概率仅与他的N-1个词有关。通过在适当的文本语料库中计算N-tuples来估计N-gram参数。
解码器通过使用修剪搜索所有可能的单词序列来操作以移除不太可能的假设，从而保持搜索易处理。当达到话语结束时，输出最可能的单词序列。或者，现代解码器可以生成包含最可能假设的紧凑格式。