http://www.cnblogs.com/huanghuang/archive/2011/07/18/2109101.html
同样是在该博客的基础上针对XP系统
一、训练语言模型
(1) 安装语言模型训练工具CMUCLMTK
VS2010直接编译即可
(2) 准备训练的文档
在 .txt中输入如下内容,记住结尾不可留“\n”(实验证明了这一点)。
切记<s>后有空格啊 </s>前也有空格,我不知道怎么就没了空格,找了好久的原因。
<s> 前进 </s>
<s> 后退 </s>
<s> 左转 </s>
<s> 右转 </s>
<s> 停止 </s>
(3)训练文档成模板
cmd命令行进入CMUCLMTK的bin文件下执行如下命令
text2wfreq < a.txt > a.wfreq
wfreq2vocab < a.wfreq > a.vocab
text2idngram -vocab a.vocab -idngram a.idngram < a.txt
idngram2lm -idngram a.idngram -vocab a.vocab -arpa a.arpa
sphinx_lm_convert -i a.arpa -o a.lm.DMP
最终生成了语言模型a.lm.DMP
二、训练声学模型
(1)准备一些文件
分别创建两个目录etc和wav,然后在两个目录下面制作一些数据文件,方便后面训练时使用。如下所示:
- etc
- my_db.dic - Phonetic dictionary
- my_db.phone - Phoneset file
- my _db.lm.DMP - Language model
- my_db.fillers - List of fillers
- my_db_train.fileids - List of files for training
- my_db_train.transcription - Transcription for training
- my_db_test.fileids - List of files for testing
- my_db_test.transcription - Transcription for testing
- wav
- speaker_1
- 1_11.wav - Recording of speech utterance
- speaker_2
- 2_11.wav - Recording of speech utterance
- speaker_3
- 3_11.wav - Recording of speech utterance
- speaker_4
- 4_11.wav - Recording of speech utterance
- speaker_5
- 5_11.wav - Recording of speech utterance
- speaker_1
(2)准备etc下的数据文件
a_train.fileids a_test.fileids
输入内容:
speaker_1/1_11
speaker_2/2_11
speaker_3/3_11
speaker_4/4_11
speaker_5/5_11
3. a_train.transcription
4. a_test.transcription
输入内容如下:
<s> 前进 </s> (1_11)
<s> 后退 </s> (2_11)
<s> 左转 </s> (3_11)
<s> 右转 </s> (4_11)
<s> 停止 </s> (5_11)
5. a.dic
输入内容:
前进 Q IAN J IN
后退 H OU T UI
左转 Z UO ZH UAN
右转 Y OU ZH UAN
停止 T ING ZH IB
6.a.filler
输入内容:
<s> SIL
</s> SIL
<sil> SIL
7.生成a.phone