Python实现语音识别：百度baidu-API

最新推荐文章于 2024-11-05 17:23:46 发布

Holidaylovesam

最新推荐文章于 2024-11-05 17:23:46 发布

阅读量1w

点赞数 6

本文链接：https://blog.csdn.net/alice_tl/article/details/97434261

版权

本文介绍了如何利用Python结合百度语音识别API进行语音识别。内容包括调用方式、支持的语音格式、Python SDK的安装与使用，以及一个简单的识别练习。通过设置合适的参数，实现了对wav或pcm格式录音文件的识别，并展示了成功运行的返回结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

百度语音识别通过 REST API 的方式给开发者提供一个通用的 HTTP 接口。上传需要完整的录音文件，录音文件时长不超过60s。

官方文档库：http://ai.baidu.com/docs#/ASR-Online-Python-SDK/top

调用方式

开发文档写可以两种方式调用。

可以下载使用SDK
不下载使用SDK：根据文档组装url获取token，处理本地音频以JSON格式POST到百度语音识别服务器，获得返回结果

语音格式格式支持

pcm（不压缩）
wav（不压缩，pcm编码）
amr（压缩格式）

推荐pcm，采样率16000 固定值。编码：16bit 位深的单声道。

百度服务端会将非pcm格式，转为pcm格式，因此使用wav、amr会有额外的转换耗时。

Python SDK安装及使用

支持Python版本：2.7.+ ,3.+

安装使用Python SDK有如下方式：

如果已安装pip，执行pip install baidu-aip即可。
如果已安装setuptools，执行python setup.py install即可。

语音识别 Python SDK目录结构：

├── README.md
├── aip                   //SDK目录
│   ├── __init__.py       //导出类
│   ├── base.py           //aip基类
│   ├── http.py           //http请求
│   └── speech.py //语音识别
└── setup.py              //setuptools安装