机器人语音问答流程及借助百度API Python实现

最新推荐文章于 2024-05-13 01:08:57 发布

Steven灬

最新推荐文章于 2024-05-13 01:08:57 发布

阅读量1.5k

点赞数

分类专栏：智能问答

本文链接：https://blog.csdn.net/weixin_40547993/article/details/93472628

版权

智能问答专栏收录该内容

5 篇文章 0 订阅

订阅专栏

机器人智能问答：python通过声音分贝来控制语音输入

运行程序：E:\pycharmproject\Audio2\Audio\Audio_qa_new.py
运行之前需安装包：baidu-aip、pyaudio、tkinter、playsound、wave、pygame等
借助百度语音API实现的。
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) 这个可以去百度语音API申请
首先通过tkinter函数用来创建窗口，添加文本框和滚动条；创建按钮Button，通过点击 “点击开始说话” 启动整个程序运行

1、语音录入:函数def my_record() 生成一个 .wav 格式文件
这里实现了根据人说话的分贝来控制语音输入，通过每次读取的采样数据，通过frombuffer函数进行转化为数组值，数组大小为：NUM_SAMPLES = 2000，
再用数组中最大值与预设阈值5000进行比较，
如果连续15个采样点都小于5000，退出循环，即连续1/16000*2000*15=1.875秒没声，就不录音了，即timeout = False,
这里调用了一个定时函数def timeclock()，因为百度API最长录音限制为60s,当录音时间超过60s,则timeout = False，停止录音。

正在录音……

2、wav格式转pcm格式：函数def wav_to_pcm() 音频文件pcm转为文本将更加准确

3、语音转文本：def audio_to_text

4、核心模块：根据文本找到答案：get_answer.getAnswer 通过全文检索权值与bert文本相似度权值进行计算得到的
范围的结果是一个嵌套字典，需要预处理一下，函数为—— def get_anstxt()

5、文本转语音：def text_to_audio() 音频为mp3格式
这里可以设置 pit音调、vol音量、spd速度、per语音性别 3:男 4:女还有1和2 可以尝试一下

6、借助playsound函数播放 mp3音频文件

当连续15个采样点都小于5000，退出循环，即连续1/16000*2000*15=1.875秒没声，就不录音了，即timeout = False，返回结果为None，并播放音频 “声音过于嘈杂或网络波动，请重新尝试。” 如下图：

当输入语音：欠钱不还会坐牢吗？即当检测到采样点值都大于5000时，也就是检测到声音时，结果如下：

当然可以通过调节分贝阈值5000，来控制检测语音输入分贝的敏感度。

Steven灬

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
1
评论
机器人语音问答流程及借助百度API Python实现

机器人智能问答：python通过声音分贝来控制语音输入运行程序：E:\pycharmproject\Audio2\Audio\Audio_qa_new.py运行之前需安装包：baidu-aip、pyaudio、tkinter、playsound、wave、pygame等借助百度语音API实现的。client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)...
复制链接

扫一扫