有趣的开源软件语音识别工具Kaldi 二

本文链接：https://blog.csdn.net/qq_44906416/article/details/89310328

本文详细介绍了Kaldi语音识别工具在模型训练前的数据准备工作，包括数据复制、音素词典生成、决策树构建、MFCC特征抽取等步骤，以hkust中文电话数据集为例，解析每个步骤的关键操作和检查点。

摘要由CSDN通过智能技术生成

在上一篇blog中简单的介绍了Kaldi的安装方法有趣的开源软件：语音识别工具Kaldi (一) 在这篇blog中继续Kaldi模型训练的步骤，介绍一下在模型训练之前的一些数据准备的工作。因为我也是正在学习语音识别和Kaldi，有些地方不一定说的很正确，如果发现错误，还请指正。

在Kaldi源代码树中，有一个叫做egs的文件夹，在这个文件夹中保存着一些Kaldi在公共数据集上的训练步骤（shell脚本）以及测试的结果。其中，中文的语音识别公共数据集一共有三个，分别是

gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08)
hkust: 中文电话数据集(LDC2005S15, LDC2005T32)
thchs30: 清华大学30小时的数据集，可以在http://www.openslr.org/18/下载

在这blog中使用的是hkust数据集进行实验。

目录结构

hkust数据集相关的脚本以及实验结果位于kaldi/egs/hkust，它的目录结构如下

.├── README.txt└── s5    ├── cmd.sh    ├── conf    │   ├── cmu2pinyin    │   ├── decode.config    │   ├── fbank.conf    │   ├── mfcc.conf    │   ├── pinyin2cmu    │   └── pinyin_initial    ├── local    │   ├── create_oov_char_lexicon.pl    │   ├── ext    │   │   ├── 195k_chinese_word2char_map    │   │   ├── hkust_word2ch_tran.pl    │   │   ├── score_basic_ext.sh    │   │   └── score.sh    │   ├── hkust_data_prep.sh    │   ├── hkust_extract_subdict.pl    │   ├── hkust_format_data.sh    │   ├── hkust_normalize.pl    │   ├── hkust_prepare_dict.sh    │   ├── hkust_segment.py    │   ├── hkust_train_lms.sh    │