建议在csdn资源页中免费下载该学习笔记的PDF版进行阅读:)点击进入下载页面
Kaldi单音素GMM学习笔记
目录
原理
学习资料:
- 统计学习方法–李航
- 学习第九章《EM算法》,可跳过9.4节。弄明白EM算法在高斯混合模型(GMM)学习中的应用,搞明白几个公式。
- 学习第十章《隐马尔可夫模型》。弄明白HMM这一套。
- 语音识别实践–俞栋,邓力
- 学习第二章《混合高斯模型》。对上述GMM学习的补充。
- 学习第十章《隐马尔可夫模型及其变体》。对上述HMM学习的补充。
- Speech and Language Processing—Daniel Jurafsky, James H. Martin.
- 学习第九章《Automatic Speech Recognition》。(注:因为我大四的时候看过几遍本章,并看过一套HMM-GMM孤立词识别的matlab代码,对HMM-GMM有一定基础,所以本次学习时我只看了9.7节的Viterbi training部分)
- Ediburg-Course. (http://www.inf.ed.ac.uk/teaching/courses/asr/)
- asr03-hmmgmm-handout.pdf
个人理解:
论讲解的清晰度、条理性,李航的书更好一些。俞栋的书则更贴近语音,并且该书的公式推导简直清晰,一点都不含糊,比如前向后向公式的推导。
EM算法之前看过几遍,总是似懂非懂。本次看EM算法,则是在我学习过《数理统计》这门课之后,因此在看EM算法的时候能加入参数估计、期望的一些背景知识去理解EM算法。主要有两点要搞清楚,第一点,EM算法其实就是在分布已知(概率密度函数的形式已知)、参数未知的情况下去估计未知参数。这样一来,估计GMM参数的EM算法的输入输出就较好理解了。第二点:EM算法是个迭代算法,最后是可以收敛到局部最优的。用上一轮计算出来的参数计算当前轮的一些值(比如带入高斯分布公式算概率),然后去得到新的参数值。
在Kaldi中,单音素GMM的训练用的是Viterbi training,而不是Baum-Welch training。因此就不是用HMM Baum-Welch那几个公式去更新参数,也就不用计算前向概率、后向概率了。Kaldi中用的是EM算法用于GMM时的那三个参数更新公式,并且稍有改变。
Baum-Welch算法更新参数时,因为要计算前向后向概率,很费时间,因此使用Viterbi Training作为Baum-Welch算法的近似。在Baum-Welch算法中,计算前向后向概率时,要用到所有的状态路径,在Viterbi训练中,用Viterbi路径代替对所有状态路径的累积。
在Viterbi训练中,先根据上一轮的模型参数对语音特征数据进行对齐,得到每一帧的特征所对应的HMM状态(在kaldi中是transition-id),也就是forced alignment。Forced alignment的结果是对应于特征序列的状态序列。
举个例子:
当前的特征序列是o1, o2, o3, o4, o5, o6, o7.(每一帧的特征是39维MFCC)
对应的状态序列是7, 8, 8, 8, 9, 9, 10.(每个数字代表一个HMM state)
知道了特征序列和其对应的状态序列,我们就可以通过简单的数数来更新HMM的参数——转移概率矩阵A。根据对齐结果,统计每一个HMM状态总共出现了多少次(可以从transition-id得到HMM state-id),统计该状态的每一个转移出现了多少次(一般只有两个转移,转移到自身和转移到下一状态),用每一个转移的出现次数除以该状态的出现次数就得到了转移概率。HMM参数就是这样更新的。
首先应该明白,在单音素GMM训练中,每一个HMM状态有一个对应的GMM概率密度函数(pdf),所以有多少个HMM状态,就有多少个GMM,也就有多少组GMM参数。在知道了特征序列和对齐序列后,找出某一个HMM状态对应的所有观测(比如状态8对应的o2, o3, o4,在kaldi中则是找到某一transition-id对应的所有观测),也就得到了该状态对应的GMM所对应的所有观测。知道了该GMM对应的所有观测、该GMM的当前参数,就可以根据GMM参数更新公式更新GMM参数了,比如知道了状态8对应的观测o2, o3, o4。Kaldi中所用的GMM参数更新公式如下图所示。
脚本
kaldi的github分支kaldi-5.0里,egs/wsj/s5/steps路径下的train_mono.sh。
Usage: steps/train_mono.sh [options] <data-dir> <lang-dir>
e.g.: steps/train_mono.sh data/train.1k data/lang exp/mono<exp-dir>
- 初始化单音素模型。调用gmm-init-mono,生成0.mdl、tree。
- 编译训练时的图。调用compile-train-graph生成text中每句抄本对应的fst,存放在fsts.JOB.gz中。
- 第一次对齐数据。调用align-equal-stats-ali生成对齐状态序列,通过管道传递给gmm-acc-stats-ali,得到更新参数时用到的统计量。
- 第一次更新模型参数。调用gmm-est更新模型参数。
- 进入训练模型的主循环:在指定的对齐轮数,使用gmm-align-compiled对齐特征数据,得到新的对齐状态序列;每一轮都调用gmm-acc-stats-ali计算更新模型参数所用到的统计量,然后调用gmm-est更新模型参数,并且在每一轮中增加GMM的分量个数。
程序
gmm-init-mono
- 作用:初始化单音素GMM。
Usage: gmm-init-mono <topology-in> <dim> <model-out> <tree-out>
e.g.: gmm-init-mono topo 39 mono.mdl mono.tree
- 计算所有特征数据每一维特征的全局均值、方差
- 读取topo文件,创建共享音素列表(根据$lang/phones/sets.int),根据共享音素列表创建ctx_dep(相当于tree)
- 每一组共享音素的一个状态对应一个Pdf。对每一个状态,创建只有一个分量的GMM,该GMM的均值初始化为全局均值、方差初始化为全局方差。(实际上,此时表示GMM的类是DiagGmm,该对象根据多维高斯分布的公式和对角协方差矩阵的特殊性,为了方便计算,直接保存的参数并不是均值、方差,而是方差的逆(实际就是方差矩阵每个元素求倒数)、均值×方差的逆,还提前计算并保存了公式中的常数部分(.mdl文件GMM部分的
<GCONSTS>
) - 根据ctx_dep和topo创建转移模型。将转移模型、GMM声学模型写到0.mdl
- 将ctx_dep写到tree.
compile-train-graphs
Usage: compile-train-graphs [options] <tree-in> <model-in> <lexicon-fst-in> <transcriptions-rspecifier> <graphs-wspecifier>
e.g.: compile-train-graphs tree 1.mdl lex.fst ark:train.tra ark:graphs.fsts
该程序的输出是ark格式的graphs.fsts(存为exp/mono/fst.JOB.gz),包含train.tra中的每个utt-id的FST,FST由无转移概率的HCLG组成。
暂时不用扣WFST相关的细节,只要明白这一步对于整个训练过程用什么用就可以了,后面专攻WFST部分代码的时候可以把每个阶段与WFST相关的部分串起来。
生成与音频特征对齐的HMM状态序列时要用到每句话的FST。
align-equal-compiled
Usage: align-equal-compiled <graphs-rspecifier> <features-rspecifier> <alignments-wspecifier>
e.g.: align-equal-compiled 1.fsts scp:train.scp ark:equal.ali
对每一句话,根据这句话的特征和这句话的fst,生成对应的对齐状态序列。
gmm-acc-stats-ali
- 作用:Accumulate stats for GMM training.
Usage: gmm-acc-stats-ali [options] <model-in> <feature-rspecifier> <alignments-rspecifier> <stats-out>
e.g.: gmm-acc-stats-ali 1.mdl scp:train.scp ark:1.ali 1.acc;
对于每一帧的特征和其对齐(transition-id):
- 对于转移模型(TM),累积tid出现的次数;
- 对于AM,由tid得到pdf-id,也就是找到对应该pdf-id的DiagGmm对象,更新与该DiagGmm对象相关的AccumDiagGmm的参数,也就是计算得到三个GMM参数更新公式的分子部分(包括每一混合分量的后验(occupancy_中保存