你好研究员! 在本文中,我们将了解如何构建ASR系统。
Kaldi是用于语音识别的开源工具包,用C ++编写,并根据Apache License v2.0获得许可。 我们可以使用它来训练语音识别模型并解码音频文件中的音频。
下载并安装KALDI
如果您已经完成了KALDI的设置,则可以跳过此步骤。
git clone https://github.com/kaldi-asr/kaldi
现在,转到目录,打开安装文件,然后根据该文件上的说明编译KALDI Framework.KALDI在安装过程中会花费一些时间,因此请利用该时间并喝点黑巧克力咖啡。 (您知道kaldi是一位传奇的埃塞俄比亚牧羊人,他在公元850年左右发现了咖啡工厂)
让我们来谈谈语音识别
在一般的语音识别框架中:1.处理传入的wav语音2.从波动信号中,我们使用声学模型提取声学特征3.将这些特征链接到单词或词汇或词典4.语言模型或语法定义了如何将单词连接到 每。
让我们了解文件夹结构
" egs"文件夹包含Kaldi的示例模型和脚本。 复制任何示例文件夹并重命名。 以下是您的文件夹结构。
Conf-文件夹包含为compute-and-process-kaldi配置的文件。
local,Steps和Utils-文件夹包含用于创建语言模型的所有必需文件,以及用于培训和解码ASR的其他支持文件。
资料准备
最初的任务是按照