Kaldi中文语音识别公共数据集一共有4个(据我所知),分别是:
1.aishell: AI SHELL公司开源178小时中文语音语料及基本训练脚本,见kaldi-master/egs/aishell
2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08)
3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32)
4.thchs30: 清华大学30小时的数据集,可以在http://www.openslr.org/18/下载
今天我们来运行thchs30数据集。
一、数据准备
首先我们需要下载语料库:
下载地址为:http://www.openslr.org/18/
里面共有3个文件,分别是:
data_thchs30.tgz [6.4G] ( speech data and transcripts )
test-noise.tgz [1.9G] ( standard 0db noisy test data )
resource.tgz [24M] ( supplementary resources, incl. lexicon for training data, noise samples )
下载后随便解压到一个文件夹里,例如在egs/thchs30/s5下新建了一个文件夹thchs30-openslr,然后把三个文件解压在了该文件夹下
这个数据集包含以下内容:
数据集 | 音频时长(h) | 句子数 | 词数 |
train(训练) | 25 | 10000 | 198252 |
dev(开发) | 2:14 | 893 | 17743 |
test(测试) | 6:15 | 2495 | 49085 |
其中dev的作用是在某些步骤与train进行交叉验证的,如local/nnet/run_dnn.sh同时用到exp/tri4b_ali和exp/tri4b_ali_cv。训练和测试的目标数据也分为两类:word(词)和phone(音素)。
1.local/thchs-30_data_prep.sh主要工作是从$thchs/data_thchs30(下载的数据)三部分分别生