个性化菜谱APP的实现(六) 语音识别功能实现

本文介绍了在个性化菜谱APP中实现语音识别功能的过程,包括对比开源的kaldi和DeepSpeech,以及最终选择并集成百度语音SDK。通过REST-API-PythonSDK和Android SDK两种方式实现APP端的语音控制命令,如打开菜谱、查询等。
摘要由CSDN通过智能技术生成

开源语音识别软件

现在开源语音识别软件有很多,许多还来自大厂,可以根据需要选择。

我选择两个测试了一下。

一、kaldi

项目地址:https://github.com/kaldi-asr/kaldi

模型下载地址:http://kaldi-asr.org/models.html

按照安装说明,安装过程如下:

1、编译openfst

地址:https://github.com/kkm000/openfst

下载源码后使用VS2017编译

2、下载OpenBLAS包

下载地址:

http://sourceforge.net/projects/openblas/files/v0.2.14/OpenBLAS-v0.2.14-Win64-int32.zip

http://sourceforge.net/projects/openblas/files/v0.2.14/mingw64_dll.zip

下载完成解压缩即可。

3、生成kaldi工程文件

下载kaldi源码解压后,修改windows目录下配置文件

(1)复制variables.props.dev 改名为variables.props,修改里面的路径配置

(2)复制the file kaldiwin_openblas.props 改名kaldiwin.props

生成工程文件:

./generate_solution.pl --vsver vs2017 --enable-openblas

./get_version.pl

这时在kaldi目录下会生成kaldiwin_vs2017_OPENBLAS目录

4、编译工程

打开kaldiwin_vs2017.sln,可以看到里面有651个项目,如果都编译时间比较长,我只选择了online2-wav-nnet3-latgen-faster编译。

编译时选择x64,如果报错找不到头文件或库文件,可以通过属性管理器修改项目配置。

重新生成项目,显示出一些警告,还好没有错误。

5、测试

在x64\Debug目录下可以看到生成的exe文件,这时执行时会报错,提示找不到库文件,需要到第二步我们解压的目录里找到下面四个dll文件(libopenblas.dll、libquadmath-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值