Python语音识别终极指北，没错，就是指北！_ecognize_google_cloud()

最新推荐文章于 2024-10-14 23:40:45 发布

2401_84557849

最新推荐文章于 2024-10-14 23:40:45 发布

阅读量832

点赞数 15

分类专栏：程序员文章标签： python 语音识别开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84557849/article/details/138402682

版权

本文介绍了如何在Python中使用SpeechRecognition库进行语音识别，包括从音频文件和麦克风录制的音频数据入手，重点讲解了音频文件的处理、噪声对识别精度的影响以及如何使用adjust_for_ambient_noise进行噪声校正。同时提到了Python学习资源和系统化的学习路径重要性。

摘要由CSDN通过智能技术生成

现在开始着手实践，在解释器会话中调用 recognise_google（）函数。

r.recognize_google()

屏幕会出现：

相信你已经猜到了结果，怎么可能从空文件中识别出数据呢？这 7 个 recognize_*() 识别器类都需要输入 audio_data 参数，且每种识别器的 audio_data 都必须是 SpeechRecognition 的 AudioData 类的实例。

AudioData 实例的创建有两种路径：音频文件或由麦克风录制的音频，先从比较容易上手的音频文件开始。

▌****音频文件的使用

首先需要下载音频文件（https://github.com/realpython/python-speech-recognition/tree/master/audio_files），保存到 Python 解释器会话所在的目录中。

AudioFile 类可以通过音频文件的路径进行初始化，并提供用于读取和处理文件内容的上下文管理器界面。

支持文件类型

SpeechRecognition 目前支持的文件类型有：

WAV: 必须是 PCM/LPCM 格式

AIFF

AIFF-C

FLAC: 必须是初始 FLAC 格式；OGG-FLAC 格式不可用

若是使用 Linux 系统下的 x-86 ，macOS 或者是 Windows 系统，需要支持 FLAC文件。若在其它系统下运行，需要安装 FLAC 编码器并确保可以访问 flac 命令。

**使用****record()**从文件中获取数据

在解释器会话框键入以下命令来处理 “harvard.wav” 文件的内容：

通过上下文管理器打开文件并读取文件内容，并将数据存储在 AudioFile 实例中，然后通过 record（）将整个文件中的数据记录到 AudioData 实例中，可通过检查音频类型来确认：

现在可以调用recognition_google（）来尝试识别音频中的语音。

以上就完成了第一个音频文件的录制。

利用偏移量和持续时间获取音频片段

若只想捕捉文件中部分演讲内容该怎么办？record() 命令中有一个 duration 关键字参数，可使得该命令在指定的秒数后停止记录。

最低0.47元/天解锁文章

关注

15
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。