Timit是LDC搜集的一个语料库,TIMIT语音库有着准确的音素标注,是一个学习用的好例子。在kaldi里面可以找到其语音识别的范例。
但是由于这个数据库是商业用的,所以Kaldi里面并没有附带数据。但是数据又可以从网络上找到,so。。。。
运行实例:
首先进入timit/s5目录下,打开run.sh文件,找到以下内容:
timit就是设置timit数据库的路径的环境变量。
我们自己新建一个环境变量,找到下载好的timit数据库的文件路径即可。这里我把数据放在~/timit路径下。
另外还需要修改此例程的需要用到的全局环境变量。
打开cmd.sh文件,发现默认用的JHU cluster,把代码注释掉,修改为 run locally即可。
运行以后,发现,报错了。。。。。。
怎么回事呢?因为这个例程建立语言模型是用irstlm工具建立的,但是在最新版本的kaldi里面,irstlm不是默认编译的。所以我们先得自行编译irstlm。
首先进入kaldi目录下的tools/extras目录,执行install_irstlm.sh脚本。安装完成以后,目录下出现irstlim目录。由于timit例程里面的引用irstlm工具的路径是tools目录,所以把这个目录拷贝到tools/目录下。回到egs/timit/s5目录,执行./run.sh脚本,于是timit例程就跑起来了。