相信很多人已经看过kaldi英文官网上关于该系统的搭建流程。虽然官方已经写的很通俗易懂,但是第一次接触的话还是不可避免的会碰到许多坑。恰巧最近实践了一下,把整个实践过程写了下来。一是方便自己后续回顾本次实验,避免以后碰到类似问题还得重复造轮子,做无用功。二是希望将官网的搭建指引写的更通俗易懂些,降低新手学习的门槛。
官方搭建指南传送门:Kaldi for Dummies tutorial
本系统的搭建意义:使用自己录制的语料库搭建一个简单的ASR系统,整个系统一共包含0到9共十个英文数字,系统搭建完成后可进行简单的孤立词识别(仅限数字0到9)。系统虽小,但五脏俱全,是入门理解如何利用kaldi搭建语音系统的好例子。
因为官方教程已经说的很详细了,所以这里只讲一些作为新手去实践这个tutorial时需要额外注意的地方。
一,预前准备:- SRILM的安装:SRILM是一个语言模型工具包,没有它你就无法生成自己的语言模型,也就无法搭建自己的ASR系统(因为语言模型,声学模型,词典是传统的ASR系统的必要组成部分,缺一不可)这个安装很重要,很多新手容易败在这一关。而官方搭建指南里只用了如下一段话概述安装流程,并且放在了快要工程定稿的部分:
SRILM installation You also need to install language modelling toolkit that is used in my example - SRI Language Modeling Toolkit (SRILM). Task For detailed installation instructions go to kaldi-trunk/tools/install_srilm.sh (read all comments inside).
如果你是选择用./install_srilm.sh文件来执行srilm的相关安装操作,你的终端最终会反馈给你这些信息:
Installation of SRILM fini