这两天看了一下百度的语音识别api,听老师说还不错,而且还是免费的,就自己学了一下(本人是python学习的小白,以前也没有调用过任何的接口)
首先我们当然是打开百度的AI开放平台,然后打开这个
然后登陆自己的账号
然后在页面中找到创建应用的按钮
然后在这里填写一些关于自己的应用的一些相关资料,然后立即创建
这里就显示了我们创建成功了!!
然后查看我们的应用列表,圈中的三个数据一是我们连接上接口的重要数据等下要用到
然后我们打开技术文档
这里我们用的是python
按照文档的要求,安装好sdk,记得把文档仔仔细细的读一遍
有几个重要的提醒
安装
语音格式(非常重要)
这下面是复制文档上的代码直接搬过来就可以用了
from aip import AipSpeech
""" 你的 APPID AK SK """
#宏定义
APP_ID = '17017240'
API_KEY = 'vjWUwOuv62PkuNW5ZrcSTrna'
SECRET_KEY = 'pAwSdHr84mNfjsw7pohGqYXTcmGDA' #由于隐私问题,我这个是随便填的一个数
#你们要用自己的数据
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
# 读取语音文件函数
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
# 识别本地文件 主函数
print(client.asr(get_file_content('C:/Users/E plus/Desktop/关门.wav'), 'wav', 16000, {'dev_pid': 1536,}))
'''speech 就 是你的录音 文件格式 采样率1600 固定值(8000或者16000) dev_pid语言类型 1536是普通话'''
'''你们需要测试的时候,只要修改代码中的API_ID API_KEY SECRET_KEY 以及文件的路径和文件名,还有采样率,语种就行了'''
要注意里面的宏定义里的信息就是刚刚创建的应用给出来的信息,复制过去就行
还有就是注意文件的格式
说实话,这种文件格式真的不好找,找到了采样率都是不对的所以这里推荐一个软件
这个软件可以进行录音(当然了,最好还是用pyaudio直接代码录制,上网薅一段代码就能录制了。),并且录音的格式是wav的采样率也是可以调的,还可以把现成的wav语音进行格式转换,转换成我们需要的采样率。
这里面有格式转换
这个软件亲测,得出来的语音都是符合百度语音识别的标准的。然后把代码运行一下就行了