最近学习python编程,想写一个语音识别的程序,网上搜索了一下发现百度的语音识别方案还不错,就搜索并写了一个demo。写之前看了许多博主写的代码,但由于python版本问题或其他原因未能成功运行。经过调试之后下面的代码应该是可以正常适配python3.7.0版本的,特发出来供学习交流,如有不妥之处还请指出!
本文就不介绍前面注册百度开发者账号的详细步骤啦,按着提示走就ok!
在之前查过的一些代码中发现大部分在用post方法请求数据的时候使用urllib/urllib2,在python3.7.0版本中该库进行了合并,但个人觉得在这里面用requests库比较好用(主要是我用urllib总有bug……我也很绝望啊)。还有就是在用base64的时候,一定记得文件的打开方式是‘rb’,否则会出bug。
然后注意下音频文件格式和采样率,在官方文档都有要求的,不要弄错了哈!
#!/usr/bin/env python
import os
import requests
import json
import base64
#首先配置必要的信息
baidu_server = 'https://aip.baidubce.com/oauth/2.0/token?'
grant_type = 'client_credentials'
client_id = '***' #API KEY
client_secret = '***' #Secret KEY
#合成请求token的url
url = baidu_server+'grant_type='+grant_type+'&client_id='+client_id+'&client_secret='+client_secret
#获取token
res = requests.get(url).text
data = json.loads(res)
token = data['access_token']
#设置音频的属性,采样率,格式等
VOICE_RATE = 16000
FILE_NAME = 'audio.wav'
USER_ID = 'Xu.zh' #这里的id随便填填就好啦,我填的自己昵称
FILE_TYPE = 'wav'
#读取文件二进制内容
f_obj = open(FILE_NAME, 'rb')
content = base64.b64encode(f_obj.read())
speech = str(content, 'utf8')
size = os.path.getsize(FILE_NAME)
#json封装
datas = json.dumps({
'format': FILE_TYPE,
'rate': VOICE_RATE,
'channel': 1,
'cuid': USER_ID,
'token': token
'speech': speech,
'len': size})
#设置headers和请求地址url
headers = {'Content-Type':'application/json'}
url = 'https://vop.baidu.com/server_api'
#用post方法传数据
request = requests.post(url, datas, headers)
result = json.loads(request.text)
text = result['result']
if result['err_no'] == 0:
print(text)
else:
print('返回错误!')
代码部分就到这里了,有什么需要交流的我们下面评论区见哦~