利用业余时间写一下自己看书的感受,就当作随笔把,这样也能帮助自己记忆,同时关于kaldi的章节我选择先停一停,我感觉把这个问题理解透再去查看kaldi可能会事半功倍。我选取的章节来源于"The Application of Hidden Markov Models in Speech Recognition",英文版的,有兴趣的可以去看看。废话不多说,我们直接进入主题。
下图显示了大型连续语音词汇识别的主要部分:
说实话看这图要不是我会语音增强的部分知识的话,我会认为很简单,的确,图看上去确实很简单,不过任何一个细节拿出来都足以让我们翻阅无数资料。如图,输入的波形(语音)被转化固定长度的语音响亮序列:
这个过程称之为特征提取,也就是著名的Feature Extraction(不要看到公式就害怕,就是有序的向量的排列)。那么解码器(Decoder)就会尝试去寻找最可能产生如上Y的字:w1:L=w1,....wL 的序列,假如decoder尝试寻找
(PS:哇,看到这里我突然想到了为什么要训练模型了)。