使用kaldi训练清华大学开源语料数据集thchs30
1.下载kaldi
命令: git clone https://github.com/kaldi-asr/kaldi.git
安装过程就不细表了。
2.下载thchs30数据集
下载地址:http://www.openslr.org/18/
thchs30是一个开源的30小时中文数据集。
如上下载三个文件,时间较长。。。。
thchs30数据集共包括25小时的语音训练数据,2分14秒的开发数据和6分15秒的测试数据。
下载完成后解压数据即可。
准备完成数据之后进入kaldi目录的egs/thchs30/s5目录,修改目录下的cmd.sh:
将如下内容:
export train_cmd=queue.pl
export decode_cmd=“queue.pl --mem 4G”
export mkgraph_cmd=“queue.pl --mem 8G”
export cuda_cmd=“