在Kaldi的egs文件下有很多基于公共语音数据库的训练步骤及测试结果,其中也有中文的,本文就相对很简单的yesno样例结合脚本以及脚本运行结果进行详细的解析,以更好地理解语音识别的整体流程。
总括
我们先来看一下run.sh脚本
cd ./egs/yesno/s5/
vi run.sh
========================================================================
#!/bin/bash
train_cmd="utils/run.pl"
decode_cmd="utils/run.pl"if [ ! -d waves_yesno ]; then
wget http://www.openslr.org/resources/1/waves_yesno.tar.gz || exit 1;
# was:
# wget http://sourceforge.net/projects/kaldi/files/waves_yesno.tar.gz || exit 1;
tar -xvzf waves_yesno.tar.gz || exit 1;
fitrain_yesno=train_yesno
test_base_name=test_yesnorm -rf data exp mfcc
# Data prepa