目录
内容简介
语音识别是机器或程序识别口语中的单词和短语并将其转换为文本信息的能力。
大多数对于语音识别技术的应用场景就是Siri、Cortana和Google Assistant等个人助理,以及其他通过语音交互的虚拟助理。为了理解你的声音,这些虚拟助手需要进行语音识别。
语音识别是一个复杂的过程,因此我不会教您如何训练机器学习/深度学习模型来做到这一点。相反,我将指导您如何使用谷歌语音识别 API 来完成此操作。快速高效的实现语音识别目的的同时,避免重复造轮子带来的资源浪费。
只要您具备 Python 基础知识,您就可以成功完成本教程并使用 Python构建您自己的功能齐全的语音识别程序。
基本环境配置
要成功完成本教程,您需要在计算机上安装以下 Python 库
- PyAudio库
- 语音识别库
Python库安装
pip install PyAudio
pip install SpeechRecognition
SpeechRecognition 库允许您通过支持多个专业语音识别引擎和 API ,包括在线和离线语音识别工具。以下是一些受支持的引擎
- CMU Sphinx (works offline)
- Google Speech Recognition (谷歌语音识别)
- Google Cloud Speech API (谷歌云语音API)
- Wit.ai (维特人工智能)
- Microsoft Bing Voice Recognition (微软必应语音识别)
- Houndify API
- IBM Speech to Text (