Kaldi学习笔记（三）——运行thchs30（清华大学中文语料库）

最新推荐文章于 2024-01-28 16:31:01 发布

VIP文章 snowdroptulip

最新推荐文章于 2024-01-28 16:31:01 发布

阅读量4.8w

点赞数 16

分类专栏： Kaldi 语音识别文章标签： Kaldi 语音识别

本文链接：https://blog.csdn.net/snowdroptulip/article/details/78943748

版权

Kaldi中文语音识别公共数据集一共有4个（据我所知），分别是：

1.aishell: AI SHELL公司开源178小时中文语音语料及基本训练脚本，见kaldi-master/egs/aishell

2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08）

3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32)

4.thchs30: 清华大学30小时的数据集，可以在http://www.openslr.org/18/下载

今天我们来运行thchs30数据集。

一、数据准备

首先我们需要下载语料库：

下载地址为：http://www.openslr.org/18/

里面共有3个文件，分别是：

data_thchs30.tgz [6.4G] ( speech data and transcripts )
test-noise.tgz [1.9G] ( standard 0db noisy test data )
resource.tgz [24M] ( supplementary resources, incl. lexicon for training data, noise samples )

下载后随便解压到一个文件夹里，例如在egs/thchs30/s5下新建了一个文件夹thchs30-openslr，然后把三个文件解压在了该文件夹下

这个数据集包含以下内容：

数据集	音频时长(h)	句子数	词数
train(训练)	25	10000	198252
dev(开发)	2:14	893	17743
test(测试)	6:15	2495	49085

还有训练好的语言模型word.3gram.lm和phone.3gram.lm以及相应的词典lexicon.txt。

其中dev的作用是在某些步骤与train进行交叉验证的，如local/nnet/run_dnn.sh同时用到exp/tri4b_ali和exp/tri4b_ali_cv。训练和测试的目标数据也分为两类：word（词）和phone（音素）。

1.local/thchs-30_data_prep.sh主要工作是从$thchs/data_thchs30（下载的数据）三部分分别生

最低0.47元/天解锁文章

snowdroptulip

关注

16
点赞
踩
174

收藏

觉得还不错? 一键收藏
11
评论
Kaldi学习笔记（三）——运行thchs30（清华大学中文语料库）

Kaldi中文语音识别公共数据集一共有4个（据我所知），分别是：1.aishell: AI SHELL公司开源178小时中文语音语料及基本训练脚本，见kaldi-master/egs/aishell2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08）3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32)4
复制链接

扫一扫