在上一篇blog中简单的介绍了Kaldi的安装方法 有趣的开源软件:语音识别工具Kaldi (一) 在这篇blog中继续Kaldi模型训练的步骤,介绍一下在模型训练之前的一些数据准备的工作。因为我也是正在学习语音识别和Kaldi,有些地方不一定说的很正确,如果发现错误,还请指正。
在Kaldi源代码树中,有一个叫做egs的文件夹,在这个文件夹中保存着一些Kaldi在公共数据集上的训练步骤(shell脚本)以及测试的结果。其中,中文的语音识别公共数据集一共有三个,分别是
- gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08)
- hkust: 中文电话数据集(LDC2005S15, LDC2005T32)
- thchs30: 清华大学30小时的数据集,可以在http://www.openslr.org/18/下载
在这blog中使用的是hkust数据集进行实验。
目录结构
hkust数据集相关的脚本以及实验结果位于kaldi/egs/hkust,它的目录结构如下
.├── README.txt└── s5 ├── cmd.sh ├── conf │ ├── cmu2pinyin │ ├── decode.config │ ├── fbank.conf │ ├── mfcc.conf │ ├── pinyin2cmu │ └── pinyin_initial ├── local │ ├── create_oov_char_lexicon.pl │ ├── ext │ │ ├── 195k_chinese_word2char_map │ │ ├── hkust_word2ch_tran.pl │ │ ├── score_basic_ext.sh │ │ └── score.sh │ ├── hkust_data_prep.sh │ ├── hkust_extract_subdict.pl │ ├── hkust_format_data.sh │ ├── hkust_normalize.pl │ ├── hkust_prepare_dict.sh │ ├── hkust_segment.py │ ├── hkust_train_lms.sh │