现在开始着手实践,在解释器会话中调用 recognise_google()函数。
r.recognize_google()
屏幕会出现:
相信你已经猜到了结果,怎么可能从空文件中识别出数据呢?这 7 个 recognize_*() 识别器类都需要输入 audio_data 参数,且每种识别器的 audio_data 都必须是 SpeechRecognition 的 AudioData 类的实例。
AudioData 实例的创建有两种路径:音频文件或由麦克风录制的音频,先从比较容易上手的音频文件开始。
▌****音频文件的使用
首先需要下载音频文件(https://github.com/realpython/python-speech-recognition/tree/master/audio_files),保存到 Python 解释器会话所在的目录中。
AudioFile 类可以通过音频文件的路径进行初始化,并提供用于读取和处理文件内容的上下文管理器界面。
支持文件类型
SpeechRecognition 目前支持的文件类型有:
WAV: 必须是 PCM/LPCM 格式
AIFF
AIFF-C
FLAC: 必须是初始 FLAC 格式;OGG-FLAC 格式不可用
若是使用 Linux 系统下的 x-86 ,macOS 或者是 Windows 系统,需要支持 FLAC文件。若在其它系统下运行,需要安装 FLAC 编码器并确保可以访问 flac 命令。
**使用****record()**从文件中获取数据
在解释器会话框键入以下命令来处理 “harvard.wav” 文件的内容:
通过上下文管理器打开文件并读取文件内容,并将数据存储在 AudioFile 实例中,然后通过 record()将整个文件中的数据记录到 AudioData 实例中,可通过检查音频类型来确认:
现在可以调用recognition_google()来尝试识别音频中的语音。
以上就完成了第一个音频文件的录制。
利用偏移量和持续时间获取音频片段
若只想捕捉文件中部分演讲内容该怎么办?record() 命令中有一个 duration 关键字参数,可使得该命令在指定的秒数后停止记录。