这里,主要介绍一下网上的教程,经过一步步实验,对某些可能让人容易误解的地方进行注释。
1. 只有原始录音和音素标注,进行初次以及多轮的单音素、三音素模型训练,并且基于这些模型进行语音切分:
http://pages.jh.edu/~echodro1/tutorial/kaldi/kaldi-training.html
手工实验下来,只有两个地方略微不同。
1. 网上谈到要在lexicon.txt的顶部加入<oov> <oov>,然后在silence_phones.txt中加入oov。在初次进行训练时,他给的命令是:
cd mycorpus
utils/prepare_lang.sh data/local/lang 'OOV' data/local/ data/lang
这里出错了,说OOV没有定义。
所以,实际上,在lexicon顶部要加入的是 oov oov,没