目录
一、接口选择
我们的小程序想要实现的是用户能够通过语音与大模型进行交流,因此选择一个高效、合适的语音识别接口是至关重要的。
微信小程序自带语音识别的接口,但是需要注册且规矩太多,跟客服交流了两天还是不能申请成功,因此放弃这个接口,选择其他的接口。
经过一些列调研与测试,我选择使用百度提供的语音识别接口。选择原因很简单,语音识别正确率高、价格便宜。
链接:百度智能云语音识别技术
二、接口调用
2.1 注册与申请
注册账号后,可以申领1.5k条免费语音识别的额度,我们需要在该网站注册一个应用,然后可以获得一个ApiKey和一个SecretKey,并且在这个应用中使用语音识别、语音合成和api。
2.2 获取token
获取百度智能云的token需要使用上面获得的ApiKey和SecretKey。向授权服务地址https://aip.baidubce.com/oauth/2.0/token
发送请求(推荐使用POST),并在URL中带上以下参数:
- grant_type: 必须参数,固定为
client_credentials
; - client_id: 必须参数,应用的
API Key
; - client_secret: 必须参数,应用的
Secret Key
;
https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=Va5yQRHlA4Fq5eR3LT0vuXV4&client_secret=0rDSjzQ20XUj5itV6WRtznPQSzr5pVw2&
每个token的有效期为30天,需要定期更新。
2.3 接口调用
需要将音频信息打包成为.json文件传递给百度智能云的服务器,在打包数据中需要有除音频文件外的一些基础信息,如文件的大小、采样的频率等内容。具体参数如下:
传递回来的内容中,result字段为语音识别到的内容。