实现自动连续的语音转文字,使用speech_recognition实现静音检测的录音,并使用百度AI开放平台的语音转文字接口将语音转文本

本文介绍了如何使用Python结合百度语音识别SDK和speech_recognition库进行语音转文字操作。首先,通过AipSpeech SDK初始化客户端,然后定义语音转文字和录音的函数。录音部分使用speech_recognition动态调整阈值以适应环境噪声,并限制录音时长。最后,将录音转换为文字并打印结果。

首先新建AipSpeech(百度语音识别的SDK客户端)

""" 百度AI开放平台的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

然后定义一个语音转文字的函数

path = 'voices/voice.wav' #需要提前创建voices文件夹

# 调用百度语音转文字接口,将语音转文本
def listen():
    with open(path, 'rb') as fp:
        voice = fp.read()

    result = client.asr(voice, 'wav', 16000, {'dev_pid': 1537})
    try:
        result_text = result["result"][0]
        print(result_text)
    except KeyError:
        print("KeyError")
        print(result)

定义录音的函数

#使用speech_recognition录音
def record_audio(rate=16000):
    r = sr.Recognizer()
    with sr.Microphone(sample_rate=rate) as source:
        print("please say something")
        r.adjust_for_ambient_noise(source) #动态调整能量阈值以解决环境噪声(自动调整静音检测的阈值)(使用后可显著提高效果)
        audio = r.listen(source,phrase_time_limit=59) #限制录音的最长时长为59秒,防止超出百度的时间限制
        print('record finish')
 
    with open("voices/voice.wav", "wb") as f:
        f.write(audio.get_wav_data())

Microphone()的使用方法
在这里插入图片描述


实例化Recognize()后调用下面的方法(这里面的r指的就是下面的recognizer_instence)
在这里插入图片描述


用speech_recognition模块可以实现有静音识别的录音(还可以与snowboy集成,实现热词识别)

speech_recognition listen函数的用法


动态调整能量阈值以解决环境噪声(自动调整静音检测的阈值)(使用后可显著提高效果)
在这里插入图片描述
参考手册:https://github.com/Uberi/speech_recognition/blob/master/reference/library-reference.rst


完整代码:

import speech_recognition as sr
from aip import AipSpeech

APP_ID = '18490357'
API_KEY = 'PdZpve6uqC7qg8kgW7LsazWZ'
SECRET_KEY = '4fNWQFkTeyxAku412byYYoRArBDGkiSg'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
path = 'voices/voice.wav' ##需要提前创建voices文件夹

#使用speech_recognition录音
def record_audio(rate=16000):
    r = sr.Recognizer()
    with sr.Microphone(sample_rate=rate) as source:
        print("please say something")
        r.adjust_for_ambient_noise(source) #动态调整能量阈值以解决环境噪声(自动调整静音检测的阈值)(使用后可显著提高效果)
        audio = r.listen(source,phrase_time_limit=59)#限制录音的最长时长为59秒,防止超出百度的时间限制
        print('record finish')
 
    with open("voices/voice.wav", "wb") as f:
        f.write(audio.get_wav_data())
 
# 调用百度语音转文字接口,将语音转文本
def listen():
    with open(path, 'rb') as fp:
        voice = fp.read()

    result = client.asr(voice, 'wav', 16000, {'dev_pid': 1537})
    try:
        result_text = result["result"][0]
        print(result_text)
    except KeyError:
        print("KeyError")
        print(result)

if __name__ == "__main__":
    while True:
        record_audio()
        listen()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值