Kaldi学习笔记（三）——运行thchs30（清华大学中文语料库）

最新推荐文章于 2023-01-04 18:59:21 发布

snowdroptulip

最新推荐文章于 2023-01-04 18:59:21 发布

阅读量4.8w

点赞数 16

分类专栏： Kaldi 语音识别文章标签： Kaldi 语音识别

本文链接：https://blog.csdn.net/snowdroptulip/article/details/78943748

版权

本文介绍了如何使用Kaldi运行清华大学的thchs30中文语音识别数据集，包括数据准备、脚本修改、模型训练等步骤。讲解了数据下载、MFCC特征提取、语言模型构建等过程，并提供了对训练和解码脚本的解读。

摘要由CSDN通过智能技术生成

Kaldi中文语音识别公共数据集一共有4个（据我所知），分别是：

1.aishell: AI SHELL公司开源178小时中文语音语料及基本训练脚本，见kaldi-master/egs/aishell

2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08）

3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32)

4.thchs30: 清华大学30小时的数据集，可以在http://www.openslr.org/18/下载

今天我们来运行thchs30数据集。

一、数据准备

首先我们需要下载语料库：

下载地址为：http://www.openslr.org/18/

里面共有3个文件，分别是：

data_thchs30.tgz [6.4G] ( speech data and transcripts )
test-noise.tgz [1.9G] ( standard 0db noisy test data )
resource.tgz [24M] ( supplementary resources, incl. lexicon for training data, noise samples )

下载后随便解压到一个文件夹里，例如在egs/thchs30/s5下新建了一个文件夹thchs30-openslr，然后把三个文件解压在了该文件夹下

这个数据集包含以下内容：

数据集	音频时长(h)	句子数	词数
train(训练)	25	10000	198252
dev(开发)	2:14	893	17743
test(测试)	6:15	2495	49085

还有训练好的语言模型word.3gram.lm和phone.3gram.lm以及相应的词典lexicon.txt。

其中dev的作用是在某些步骤与train进行交叉验证的，如local/nnet/run_dnn.sh同时用到exp/tri4b_ali和exp/tri4b_ali_cv。训练和测试的目标数据也分为两类：word（词）和phone（音素）。

1.local/thchs-30_data_prep.sh主要工作是从$thchs/data_thchs30（下载的数据）三部分分别生