Python3 使用百度云 API 接口实现音频文件转写

最新推荐文章于 2022-10-13 17:46:51 发布

原创最新推荐文章于 2022-10-13 17:46:51 发布 · 3.2k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#Python #语音识别 #百度云 #音频转写

Python 同时被 2 个专栏收录

132 篇文章

订阅专栏

ASR

5 篇文章

订阅专栏

本文详细介绍了如何使用Python调用百度智能云的语音识别接口，包括必要的语音格式要求、APP_ID、API_KEY、SECRET_KEY的获取流程，以及具体代码示例。

部署运行你感兴趣的模型镜像

注意事项

本文参考链接: http://dy.163.com/v2/article/detail/DKQLR7RK0517ACP7.html.
百度智能云的官方文档是有JAVA SDK文档的，如果你想用Python来调用百度接口实现音频文件转写的话，那你就来对了。

操作系统：Windows
Python：3.6
注意事项：
语音识别要求支持的语音格式
原始 PCM 的录音参数必须符合 8k/16k 采样率、16bit 位深、单声道，支持的压缩格式有：pcm（不压缩）、wav、opus、amr、x-flac。
简单说，语音参数必需要 8k/16k 采样率、16bit 位深、单声道，不然会出现内容和文字不相符的情况。

APP_ID, API_KEY, SECRET_KEY的获取

既然要用人家的服务，肯定会有些限制，不过这些都是可以理解的。首先进入百度AI开放平台，通过百度云或者百度其他账号登录进入控制台，然后按照如下流程即可获得你想要的东西：

1、页面右上方“控制台”点击进入，登录百度账号，进入百度云管理后台页面。
2、左侧导航栏上方，依次选择 产品服务->人工智能->智能呼叫中心，进入应用“概览”页面。
3、服务申请。点击“创建应用”，“接口选择”已默认勾选完成，如无其他需求，无需勾选，完成其他资料后，点击最下方“立即创建”按钮。
4、应用成功则页面显示“创建完毕”，点击”返回应用列表”， 查看新创建应用详情，记录AppID，API Key，Secret Key。

话不多说，直接上代码了

// An highlighted block
import json

import requests
import time

APP_ID = '********' # 你申请的APP_ID
API_KEY = '***************' # 你申请的API_KEY
SECRET_KEY = '*****************' # # 你申请的SECRET_KEY

def get_access_token(cltid, srt_key): # 获取访问令牌
    # oauth_url = 'https://openapi.baidu.com/oauth/2.0/token'
    oauth_url = 'https://aip.baidubce.com/oauth/2.0/token'
    args_data = {'grant_type': 'client_credentials',
                 'client_id': cltid,
                 'client_secret': srt_key,
                 }
    cnt_type = {'Content-Type': 'application/json; charset=UTF-8'}
    resp = requests.post(oauth_url, data=args_data, headers=cnt_type)
    print("get baidu center info...")
    if resp.status_code != 200:
        print("have http error", resp.status_code)
        return None
    cnt = resp.json()  # 获取的内容变为字典
    cnt['expires_in'] += int(time.time())  # 将有效期时间记录
    with open('baidu.ck', 'w', encoding='utf-8') as fp:
        res = {'access_token': cnt['access_token'], 'expires_in': cnt['expires_in']}
        json.dump(res, fp)
    return cnt['access_token']

def upload_audio_file(access_token): # 上传你要识别的音频文件，得按照人家规定的参数和格式
    # speed_url = 'http://vop.baidu.com/server_api'
    speed_url = 'https://aip.baidubce.com/rpc/2.0/session/offline/upload/asr?access_token={%s}' % access_token
    # args_data = {'format': 'pcm',
    #              'rate': 8000,
    #              'channel': 1,
    #              'cuid': 'rocky_shop',  # 应用名称，可随意取名
    #              'token': atoken,
    #              }
    args_data = {
        "appId": APP_ID,
        "companyName": "百度", # 这个可以修改
        "callId": "20e59200-57da-423e-b613-6a8ce126d0a7", # 这个也可以改
        "agentFileUrl": "http://***", # 你语音文件的url，要公网可访问的地址，你写上之后可以自己先下载试一下
        "suffix": "wav",
    }
    header = {'Content-Type': 'application/json'}
    resp = requests.post(speed_url, data=json.dumps(args_data), headers=header)
    info = resp.json()
    return info

def get_text_from_url(access_token): # 获取识别结果。免费用户是整点识别，上传之后得等待...
    datas = {
        "category": "OFFLINE_ASR_RESULT",
        "paras": {
            "appId": APP_ID,  # 百度云appId,必选
            "callId": "20e59200-57da-423e-b613-6a8ce126d0a7"  # 用户上传某一通的callId,必选
        }
    }
    data_url = 'https://aip.baidubce.com/rpc/2.0/search/info?access_token={%s}' % access_token
    header = {'Content-Type': 'application/json'}
    response = requests.post(data_url, data=json.dumps(datas), headers=header)
    information = response.json()
    return information

# 结果解析的东西自己随便写，如果提前不太清楚返回数据的格式，可以先整个都print出来，然后做相应的解析。至于识别结果的准确性，这个不好说...
access_token = get_access_token(API_KEY, SECRET_KEY)
print(access_token)
info = upload_audio_file(access_token)
print(info)
result = get_text_from_url(access_token)
print(result)
# tmp = result['data']['content']
# print(tmp)
# tmp_list = eval(tmp)
# for x in tmp_list:
#     print(x['sentence'])

上传成功以后就慢慢等…
运行结果示意图

您可能感兴趣的与本文相关的镜像

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

11 条评论

废柴小七 2021.05.10
博主您好，我想请问一下，我获取到了正确的token，但接下来显示的是{'error_code': 6, 'error_msg': 'No permission to access data'} {'error_code': 6, 'error_msg': 'No permission to access data'}，这个问题怎么处理呢？那个CallID指的是？
- Looooking回复废柴小七 2021.05.10
  你用腾讯的试试吧，百度这个，额 ... ，翻译效果好像不太好

weixin_42648445 2020.07.25
博主，想请教一下，现在想用wiki中文训练好的word2vec模型结果，请问哪能直接下载模型吗？还是需要自己再训练一遍？
- weixin_42648445回复Looooking 2020.07.25
  [reply]TomorrowAndTuture[/reply]嗯嗯，好的谢谢大佬我去看一下~
- Looooking回复weixin_42648445 2020.07.25
  [reply]weixin_42648445[/reply]我用过腾讯的中文词向量资料集Tencent_AILab_ChineseEmbedding，其他的不是特别清楚。

挣扎的笨鸟 2019.10.22
agentFileUrl应该是个什么样的链接，有办法直接上传音频文件吗？我用的百度云链接显示URL不可下载。其次是callId是自己随意写的吗，没有找到callId的获取方式
- Looooking回复挣扎的笨鸟 2019.10.25
  [reply]weixin_38989668[/reply] 不客气
- 挣扎的笨鸟回复Looooking 2019.10.25
  [reply]TomorrowAndTuture[/reply] 好的，谢谢🙏
- Looooking回复挣扎的笨鸟 2019.10.25
  [reply]weixin_38989668[/reply] 这个我没试过，你可以试试。用百度云的话下载东西应该也会有一个弹窗，从弹窗里复制地址链接试试。
- 挣扎的笨鸟回复Looooking 2019.10.23
  [reply]TomorrowAndTuture[/reply] 不好意思再问一下，我把音频文件放到百度云分享，拿百度云的分享链接能作为agenfileurl可以吗
- Looooking回复挣扎的笨鸟 2019.10.23
  [reply]weixin_38989668[/reply] agentFileUrl这个是公网可访问的音频文件地址，也就是这个地址应该任何联网的电脑都可以下载你的这个音频文件；callId可以随便写，只要不冲突一般都允许。如果你只是测试用的话，可以参考这个链接：https://blog.csdn.net/TomorrowAndTuture/article/details/100008718。讯飞的这个可以上传本地录音文件。