speech_recognition实现录音ffmpeg实现音频文件转换，并用百度语音的sdk实现语音识别

最新推荐文章于 2024-08-13 08:53:48 发布

墨氲

最新推荐文章于 2024-08-13 08:53:48 发布

阅读量4.5k

点赞数 1

分类专栏：语音处理文章标签：语音处理 python speech_recognition ffmpeg 百度

本文链接：https://blog.csdn.net/dss_dssssd/article/details/83540264

版权

该项目在Windows环境下使用speech_recognition录制音频并转换为16k WAV，通过ffmpeg转为PCM格式，然后利用百度语音SDK进行识别。依赖包括speech_recognition, pyttsx3, pyaudio, wave和ffmpeg。注意pyttsx3初始化不能在多线程中进行，若遇到timeout错误，可能需要更换API的id和key。项目源码已开源。" 136639337,22182419,Java实现模拟目录管理功能,"['华为OD', '数据结构', '算法', '开发语言', 'Java']

摘要由CSDN通过智能技术生成

项目说明：

在windows平台下，使用speech_recognition记录音频，并转换为16k的wav，之后利用ffmpeg将wav转化为pcm文件，上传到百度语音端，返回语音信息，并利用pyttsx3添加了简单的交互功能。

需求模块：

speech_recognition， pyttsx3， pyaudio， wave， aip， ffmpeg

模块安装：

speech_recognition: https://pypi.org/project/SpeechRecognition/
pyttsx3: https://blog.csdn.net/dss_dssssd/article/details/82693742
pyaudio: https://pypi.org/project/PyAudio/
aip:https://ai.baidu.com/docs#/ASR-Online-Python-SDK/top
ffmpeg (Windows下） 注意是系统的环境变量，不是个人的path
https://blog.csdn.net/zhuiqiuk/article/details/72834385

代码如下

import speech_recognition as sr
import pyttsx3
import pyaudio
import wave
from aip import AipSpeech
import os

# 读取wav文件并播放
def read_wav():
    CHUNK = 1024
# 测试语音
    wf = wave.open('./2.wav', 'rb')
        # read data
    data = wf.readframes(CHUNK)
    p = pyaudio.PyAudio()
    FORMAT = p.get_format_from_width(wf.getsampwidth())
    CHANNELS = wf.getnchannels()
    RATE = wf.getframerate