说说python自带的speech和speech_recognition的使用以及效果

本文介绍了作者在Windows环境下使用Python进行语音识别的研究过程，重点探讨了CMUSphinx库的安装及使用方法，并解决了常见错误。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

人工智能这么火爆的时代，近来正好有时间就想研究以下智能语音这块的内容，虽然感觉自带的模块应该识别不太准确，不然就不会有百度的padder，google的tensorflow等框架，但是路要一步步走，饭也要一步步吃，初学的时候总要各种尝试一下。以下内容是我最近两天的尝试结果。

环境win10，python3.7

先说说speech，这个贼简单

pip install speech

recognize_bing(): Microsoft Bing Speech

recognize_google(): Google Web Speech API

recognize_google_cloud(): Google Cloud Speech - requires installation of the google-cloud-speech package

recognize_houndify(): Houndify by SoundHound

recognize_ibm(): IBM Speech to Text

recognize_sphinx(): CMU Sphinx - requires installing PocketSphinx

recognize_wit(): Wit.ai

目前我使用的是这个：recognize_sphinx，因为

以上七个中只有 recognition_sphinx（）可与CMU Sphinx 引擎脱机工作，其他六个都需要连接互联网。

SpeechRecognition 附带 Google Web Speech API 的默认 API 密钥，可直接使用它。其他六个 API 都需要使用 API 密钥或用户名/密码组合进行身份验证，因此本文使用了 Web Speech API。

安装之后就可以让他说话了，在import speech的时候，会出现一些环境的配置，我这边是win10的系统，就会出现语音识别的相关设置，按照提示操作即可。

复制代码

import speech

#这边三行是自己会说话
speech.say("小王王 你好呀")
speech.say("hello world")
speech.say("要开始啦")

#这边是进行对话
while True:
    print(u"开始说话")
    say = speech.input()  # 接收语音
    speech.say("you said:" + say)  # 说话
    print(u"说话结束")
    if say == "你好":
        speech.say("How are you?")
    elif say == "天气":
        speech.say("今天天气棒棒棒!")
    elif say == "小王王":
        speech.say("小王王 棒棒棒")
    elif say == "小丽平":
        speech.say("小丽平 六六六")
    else:
        speech.say("对不起 我不知道你说什么")

复制代码

运行完，以上程序，我发现它总是不知道我在说啥，于是回复我-->对不起我不知道你说什么，就一个你好回答对了，不过还是要尝试一下。

然后我就想说可不可以自己录一个音频，实现识别的效果，于是发现speech_recognition这个库，也是很简单直接安装一下，但是需要安装别的包。

pip install speech_recognition -i https://mirror.baidu.com/pypi/simple

然后这个还需要pocketsphinx这个库，于是win10安装一直报错，我就干脆直接下载wheel的轮子，去这个网站https://www.lfd.uci.edu/~gohlke/pythonlibs/#pocketsphinx，搜索pocketsphinx，下载对应的版本到本地即可，然后直接pip install 你下载的.wheel就可以啦

相关录音代码识别

复制代码

# -*- coding: utf-8 -*-
import speech_recognition as sr
AUDIO_FILE = "11.wav"
r = sr.Recognizer()
with sr.AudioFile(AUDIO_FILE) as source:
    audio = r.record(source)  # read the entire audio file

res = r.recognize_sphinx(audio)
res1 = res.split(" ")
# for each in res1:
print(" ".join(res1))

复制代码

运行结果：（其实我说的是你好你好运动生活）