Python语音识别终极指北,没错,就是指北!_ecognize_google_cloud()

本文介绍了如何在Python中使用SpeechRecognition库进行语音识别,包括从音频文件和麦克风录制的音频数据入手,重点讲解了音频文件的处理、噪声对识别精度的影响以及如何使用adjust_for_ambient_noise进行噪声校正。同时提到了Python学习资源和系统化的学习路径重要性。
摘要由CSDN通过智能技术生成

现在开始着手实践,在解释器会话中调用 recognise_google()函数。

r.recognize_google()

屏幕会出现:

相信你已经猜到了结果,怎么可能从空文件中识别出数据呢?这 7 个 recognize_*()  识别器类都需要输入 audio_data 参数,且每种识别器的 audio_data 都必须是 SpeechRecognition 的 AudioData 类的实例。

AudioData 实例的创建有两种路径:音频文件或由麦克风录制的音频,先从比较容易上手的音频文件开始。

▌****音频文件的使用

首先需要下载音频文件(https://github.com/realpython/python-speech-recognition/tree/master/audio_files),保存到 Python 解释器会话所在的目录中。

AudioFile 类可以通过音频文件的路径进行初始化,并提供用于读取和处理文件内容的上下文管理器界面。

支持文件类型

SpeechRecognition 目前支持的文件类型有:

WAV: 必须是 PCM/LPCM 格式

AIFF

AIFF-C

FLAC: 必须是初始 FLAC 格式;OGG-FLAC 格式不可用

若是使用 Linux 系统下的 x-86 ,macOS 或者是 Windows 系统,需要支持 FLAC文件。若在其它系统下运行,需要安装 FLAC 编码器并确保可以访问 flac 命令。

**使用****record()**从文件中获取数据

在解释器会话框键入以下命令来处理 “harvard.wav” 文件的内容:

通过上下文管理器打开文件并读取文件内容,并将数据存储在 AudioFile 实例中,然后通过 record()将整个文件中的数据记录到 AudioData 实例中,可通过检查音频类型来确认:

现在可以调用recognition_google()来尝试识别音频中的语音。

以上就完成了第一个音频文件的录制。

利用偏移量和持续时间获取音频片段

若只想捕捉文件中部分演讲内容该怎么办?record() 命令中有一个 duration 关键字参数,可使得该命令在指定的秒数后停止记录。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值