开源语音识别软件
现在开源语音识别软件有很多,许多还来自大厂,可以根据需要选择。
我选择两个测试了一下。
一、kaldi
项目地址:https://github.com/kaldi-asr/kaldi
模型下载地址:http://kaldi-asr.org/models.html
按照安装说明,安装过程如下:
1、编译openfst
地址:https://github.com/kkm000/openfst
下载源码后使用VS2017编译
2、下载OpenBLAS包
下载地址:
http://sourceforge.net/projects/openblas/files/v0.2.14/OpenBLAS-v0.2.14-Win64-int32.zip
http://sourceforge.net/projects/openblas/files/v0.2.14/mingw64_dll.zip
下载完成解压缩即可。
3、生成kaldi工程文件
下载kaldi源码解压后,修改windows目录下配置文件
(1)复制variables.props.dev 改名为variables.props,修改里面的路径配置
(2)复制the file kaldiwin_openblas.props 改名kaldiwin.props
生成工程文件:
./generate_solution.pl --vsver vs2017 --enable-openblas
./get_version.pl
这时在kaldi目录下会生成kaldiwin_vs2017_OPENBLAS目录
4、编译工程
打开kaldiwin_vs2017.sln,可以看到里面有651个项目,如果都编译时间比较长,我只选择了online2-wav-nnet3-latgen-faster编译。
编译时选择x64,如果报错找不到头文件或库文件,可以通过属性管理器修改项目配置。
重新生成项目,显示出一些警告,还好没有错误。
5、测试
在x64\Debug目录下可以看到生成的exe文件,这时执行时会报错,提示找不到库文件,需要到第二步我们解压的目录里找到下面四个dll文件(libopenblas.dll、libquadmath-