语音识别心得（花朵分类程序）_wincommand('open "' + sound + '" alias', alias)-CSDN博客

本文链接：https://blog.csdn.net/bayhax/article/details/89153685

本文分享了作者在基于TensorFlow的花朵识别分类项目中，加入语音识别功能的经验。详细介绍了使用SpeechRecognition模块进行语音转文字，以及百度AipSpeech模块实现文字转语音的过程，包括模块安装、使用技巧和遇到的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

写作目的
python语音模块
总结

写作目的

最近在做自己的毕业设计，打算做的是基于tensorflow利用CNN算法进行识别。于是查找资料之后，就做了花朵识别分类程序，在github上找到了一个可以用的程序，于是copy下来，自己进行改动来实现自己想要的功能。然后在指导老师的建议下，增加了语音识别指定的图片这个模块。在增加这个模块的过程中，遇到了很多问题，所以特此记录下来，方便日后查看改进，也希望能够给看到此文章的同学一些帮助。
github链接: [https://github.com/bayhax/FlowerRecognize]
我所用的编程环境： win7+spyder3.6+tensorflow1.13.1+百度AipSpeech

python语音模块

语音转文字处理模块

目前有很多语音处理模块，比如 PyPI中
apiai
google-cloud-speech
pocketsphinx
SpeechRecognition
waston-developer-cloud
完全可以自行去百度或者Google，或者去官网看文档，都是很不错的选择。
由于我使用的是SpeechRecognition，所以就记录一些它的使用过程。
安装
pip install SpeechRecognition
如果有在线网络下载慢等问题可以去官网下载whl文件，进入whl文件目录进行安装
官网链接[https://pypi.org/project/SpeechRecognition/#files]
安装完之后再python交互界面测试一下

import speech_recognition as sr     
sr.__version__

显示出版本信息之后就证明安装成功了。
使用
下面是我使用的时候的一段代码

import speech_recognition as sr
import logging
logging.basicConfig(level=logging.DEBUG)

while True:
    #speech_recognition的核心是识别器类
    r = sr.Recognizer()
    #麦克风
    mic = sr.Microphone()
    logging.info('录音中')
    with mic as source:
        #去噪声
        r.adjust_for_ambient_noise(source)
        audio = r.listen(source)
    
    logging.info('录音结束，识别中.....')
    test = r.recognize_google(audio,language='cmn-Hans-CN',show_all=True)
    #print(test[0])
    #这里注意这个recognize_google返回的test，如果是空文件，返回的是一个列表
    #如果不是空文件，返回的是一个包含列表的字典
    if isinstance(test,list):
        print("空")
    else:
        print(test['alternative'][0]['transcript'])
        print(type(test['alternative'][0]['transcript']))
    #print(type(test))
    logging.info('end')

文字转语音处理模块

文字转语音模块也有很多，比如Google，百度，讯飞等等，我个人使用的是百度的AipSpeech,所以说说它的使用方法，也蛮方便的。
安装
pip install AipSpeech
然后去百度AI开放平台,点击控制台，创建自己的应用，获取自己的ID,KEY等。
使用

# -*- coding: utf-8 -*-
#百度AI平台提供的语音库文件，playsound播放音频
from aip import AipSpeech
import shutil
#百度AI平台的ID秘钥等，APPID AK SK """
APP_ID = '你自己的ID'
API_KEY = '你自己的KEY'
SECRET_KEY = '你自己的秘钥'
#定义自己的初始化AipSpeech对象
myspeech = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
num = 0
#要转换的文字信息
result  = myspeech.synthesis('二营长，把老子的意大利炮拿来', 'zh', 1, {
    'spd':3,'pit':9,'vol': 6,'per':4
})
#如果识别正确，则返回语音的二进文件写入自己定义的audio文件中，错误则返回dict
#这里注意一下，with open打开写入文件用相对路劲有时候会出错，用绝对路径会相对好一些。
if not isinstance(result, dict):
    with open(r'.\test\audio'+str(num)+'.mp3', 'wb') as f:
        f.write(result)
 #复制文件
shutil.copy(r'.\test\audio'+str(num)+'.mp3', r'.\testcopy\audio'+str(num)+'.mp3')

播放音频文件模块

播放音频文件可以用pygame,mp3play，playsound等等，我用的是playsound，但是我的渣渣电脑可能有问题，也有可能是我什么地方做错了，我用哪种播放方式都无法关闭播放的文件，导致我无法删除或者重新写入文件，所以只好复制音频文件，播放副本，每次生成新的名字的音频文件。然后运行完再手动删除副本文件。如果是某一种格式的音频无法播放或者有问题，可以试着用ffmpeg将文件转换格式。同理去它的官网下载轮子或者pip安装适合自己的版本都是可以的。当然ffmpeg需要pydub。安装pydub等这些python的库，用pip，conda或者下载whl文件，都是还算好解决的。下面给大家一段mp3格式转到wav格式的代码。其他转换同理。

from pydub import AudioSegment
#要转换的文件的路径
filepath=".\\test\\audio0.mp3"
def trans_mp3_to_wav(filepath):
    song = AudioSegment.from_mp3(filepath)
    print("转换....")
    #转换完的文件存储路径及格式
    song.export(".\\testcopy\\test.wav", format="wav")

if __name__ == "__main__":
    trans_mp3_to_wav(filepath)

在github上查看playsound的文件，发现好像没有关闭音频的方式
下面是playsound的python文件

  def winCommand(*command):
        buf = c_buffer(255)
        command = ' '.join(command).encode(getfilesystemencoding())
        errorCode = int(windll.winmm.mciSendStringA(command, buf, 254, 0))
        if errorCode:
            errorBuffer = c_buffer(255)
            windll.winmm.mciGetErrorStringA(errorCode, errorBuffer, 254)
            exceptionMessage = ('\n    Error ' + str(errorCode) + ' for command:'
                                '\n        ' + command.decode() +
                                '\n    ' + errorBuffer.value.decode())
            raise PlaysoundException(exceptionMessage)
        return buf.value

    alias = 'playsound_' + str(random())
    winCommand('open "' + sound + '" alias', alias)
    winCommand('set', alias, 'time format milliseconds')
    durationInMS = winCommand('status', alias, 'length')
    winCommand('play', alias, 'from 0 to', durationInMS.decode())

    if block:
        sleep(float(durationInMS) / 1000.0)

回到正题
安装
pip install playsound
使用

from playsound import playsound
playsound("你自己的音频文件的路径")

总结

增加这个语音识别模块的这几天，当明明感觉程序没问题却就是报错，然后模块用起来不尽人意的时候，还是着实让人烦恼的，不过最后还是初成模型，实现了自己想要的功能还是不错滴，期待日后找出不能关闭音频文件的原因，然后改进。完整的花朵分类的程序（三个功能：选择本地图片进行识别，拍照识别，语音识别），见文章的最前面github链接。