python基于百度接口的语音识别_python关于调用百度语音识别api的操作~

本文介绍了如何使用Python结合百度语音识别API实现语音转文字功能,包括注册账号、获取API Key和Secret Key、构造JSON请求、发送POST请求及处理返回结果等步骤。还展示了使用PyAudio模块进行录音并保存为WAV文件,进一步实现语音识别的完整流程。
摘要由CSDN通过智能技术生成

最近新系统上线,刷缓存刷个不停,

准备利用语音完成此操作,解放双手,不知道能不能实现,先一点点来。。

实现步骤拆分:

1、语音识别(百度语音识别api)

2、识别后操作前台实现刷新缓存

3、。。。

想要调用百度的语音识别功能,需要如下步骤

1、需要先注册百度云的账号

2、在控制台中创建个应用,获取到API Key 和 Secret Key

3、根据文档中心手册,使用(speech/len方式)JSON格式POST上传本地文件到 http://vop.baidu.com/server_api 或 https://vop.baidu.com/server_api

4、根据返回查看报错或成功解析后文字

1)第一步不说

2)第二步完成如图

3)json 参数

JSON方式上传

语音数据和其他参数通过标准 JSON 格式串行化 POST 上传, JSON 里包括的参数:

字段名可需描述

format

必填

语音文件的格式,pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件

rate

必填

采样率,16000,固定值

channel

必填

声道数,仅支持单声道,请填写固定值 1

cuid

必填

用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。

token

必填

开放平台获取到的开发者[access_token]获取 Access Token "access_token")

dev_pid

选填

不填写lan参数生效,都不填写,默认1537(普通话 输入法模型),dev_pid参数见本节开头的表格

lan

选填,废弃参数

历史兼容参数,请使用dev_pid。如果dev_pid填写,该参数会被覆盖。语种选择,输入法模型,默认中文(zh)。 中文=zh、粤语=ct、英文=en,不区分大小写。

url

选填

可下载的语音下载地址,与callback连一起使用,确保百度服务器可以访问。

callback

选填

用户服务器的识别结果回调地址,确保百度服务器可以访问

speech

选填

本地语音文件的的二进制语音数据 ,需要进行base64 编码。与len参数连一起使用。

len

选填

本地语音文件的的字节数,单位字节

样例:

{

"format":"pcm",

"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值