Kaldi语音识别注意事项

有关语音识别的工作除了Torch,还使用过Kaldi工具箱,也同样整理一下需要注意的细节。参考了thchs30的使用示例。


1. 同样需要注意自己准备的语音数据格式(***.wav等),声道数,采样频率等属性,采样频率不同需要在自己工程的s5/conf目录下修改mfcc.conf与 fbank.conf文件中的sample-frequency。


2. 并行进程数默认n=8,可根据计算机性能修改,同时自己准备的数据中train,dev,test人数均不得少于n。


3. 实验中出现过卡在某一条语句上的情况,没找出原因,但可以删除shell语句中的“&”,不把程序放在后台跑,这样就能顺利通过,具体在s5/run.sh文件中所有test的命令后与s5/local/nnet/run_dnn.sh文件的dnn模型中的“&”都删除,就解决了这个问题。


4. 在s5/run.sh的最后一步train dae model时,总是没有跑成功,如果有成功运行的高手能指导一下就不胜感激了。


5. 自己准备的数据集,特别是小型的语料库,需要自己生成语言模型,可以用srilm建立语言模型,一般分别生成音素phone和单词word的3-Gram语言模型,放在与语音数据同目录下。srilm工具有许多博主介绍过,很容易找到使用方法。

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页