Python3从零开始搭建一个语音对话机器人

本文介绍了从零开始使用Python3搭建语音对话机器人的全过程,包括语音生成音频文件、音频转文字、与图灵机器人对话、文字转语音等步骤。通过百度AI开放平台的语音识别技术和图灵机器人的API,实现了一个实时语音交互的机器人系统。同时,文章还提到了搭建过程中所需的基础准备、关键代码及常见问题解答。
摘要由CSDN通过智能技术生成

从零开始搭建一个语音对话机器人

目录

01-初心缘由

02-准备工作

03-语音机器人的搭建思路

04-语音生成音频文件

05-音频文件转文字STT

06-与图灵机器人对话

07-文字转语音

08-语音对话机器人的完整代码

09-结束语

10-有问必答


01-初心缘由

        最近在研究语音识别方向,看了很多的语音识别的资料和文章,了解了一下语音识别的前世今生,其中包含了很多算法的演变,目前来说最流行的语音识别算法主要是依赖于深度学习的神经网络算法,其中RNN扮演了非常重要的作用,深度学习的应用真正让语音识别达到了商用级别。然后我想动手自己做一个语音识别系统,从GitHub上下载了两个流行的开源项目MASR和ASRT来进行复现,发现语音识别的效果没有写的那么好,其中如果要从零来训练自己的语言模型势必会非常耗时。

        因此,就有了一个新的想法,借助一些开源的语音识别SDK来实现语音识别,来看看他们语音识别的效果如何。于是想到了百度和科大讯飞,然后就百度了一下,百度搜索举贤不避亲的给我推荐了百度AI开放平台!然后查看了百度语音识别的技术文档,发现对python的支持非常友好,而科大讯飞好像没有提供对python的接口支持,因而选定了百度。

        虽然百度目前槽点很多,但是不得不说百度在AI方面的投入和开放是值得点赞的!百度的AI开放平台确实为开发者们带来很多的便利性,开放了非常多的AI服务,大家自行去注册使用,百度大脑AI开放平台地址:http://ai.baidu.com/   (PS:我确实没收广告费!)

        经过体验发现百度的语音识别准确率高的吓人,完爆了GitHub上的开源项目N条街,然后在CSDN浏览各位博主的博客时发现,用百度语音识别的API和图灵机器人的API可以做一个实时语音对话的机器人,感觉特别兴奋,从而决定搭建一个自己的语音对话机器人。目前,我已经实现了我的语音对话机器人,因此特意来分享一下整个的实现过程和遇到的坑,让大家可以快速的构建你们的语音对话机器人。好啦,我们开始吧!

02-准备工作

  • (1)准备python开发环境

  需要准备的python包包括:speech_recognition(语音识别包)、pyaudio(录音接口)、wave(打开录音文件并设置音频参数)、pyttsx3(文本转语音)、json(解析json串)、requests(get/post)、baid_aip(百度语音识别的aip)。

  • (2)准备百度API

登录百度AI开放平台语音识别:https://ai.baidu.com/tech/speech/asr  ,如果没有账号自己注册即可,免费试用哦。

点击技术文档:阅读语音识别的技术文档,重点查看API文档和Python SDK,了解如何在python中调用API接口。

点击立即使用:进入到服务界面,创建应用。记住最重要的App ID、API Key、Secret Key,后面调用时需要用到。

  • (3)准备图灵机器人:

图灵机器人大脑具备强大的中文语义分析能力,可准确理解中文含义并作出回应,是最擅长聊中文的机器人大脑,赋予软硬件产品自然流畅的人机对话能力。图灵机器人是中文语境下智能度最高的“机器人大脑”,是全球较为先进的机器人中文语言认知与计算平台,图灵机器人对中文语义理解准确率已达90%,可为智能化软硬件产品提供中文语义分析、自然语言对话、深度问答等人工智能技术服务。——源于百科(好吧,又和百度扯上点关系了。)

总之,就是需要你去图灵机器人官网http://www.turingapi.com/注册成功后,构建一个属于你的图灵机器人,用于后续将翻译后的文本内容对图灵机器人提问获取回答,然后我们通过TTS处理就可以获取语音输出了。

注册后创建自己的机器人,然后在机器人设置的终端设置中查看自己的apikey(这个key非常重要),另外一定要把密钥开关关闭,不然后面在调用api时会报3001错误,无法调用图灵机器人(此处有坑,已填)!

图灵机器人未进行身份认证时,是不能够进行调用的,如果调用会出现“请求次数超限制”的问题,通过个人身份认证后,每天能够调用100次,这是免费版。100次当然是不够用的,如果你想要更多的服务,就只能购买会员了,99和299每月的套餐,具体看下图。如果是自己玩,那就免费版,如果是开发,可以考虑99的,如果是做一个产品,那就得企业采购了,咱们没那么土豪!

03-语音机器人的搭建思路

1、首先明确我们要实现的目标,是要实现纯语音对话聊天,不需要输入文字交流。我们实时说,机器人实时回复,真正实现语音交互对话。

2、整个过程的实现流程是这样的,我们说一句话,通过录音保存为语音文件,然后调用百度API实现语音转文本STT,再然后调用图灵机器人API将文本输入得到图灵机器人的回复,最后将回复的文本转成语音输出TTS,就这样我们就实现了和机器人的语音对话了!是不是有点绕,来个流程图吧&#

要编写一个语音对话机器人需要涉及到语音识别、自然语言处理和语音合成等技术。以下是一个简单的Python语音对话机器人的示例代码: ```python import speech_recognition as sr from chatterbot import ChatBot from chatterbot.trainers import ChatterBotCorpusTrainer import pyttsx3 # 初始化语音识别器和语音合成器 r = sr.Recognizer() engine = pyttsx3.init() # 初始化聊天机器人 bot = ChatBot('MyBot') trainer = ChatterBotCorpusTrainer(bot) trainer.train('chatterbot.corpus.english') # 定义语音合成函数 def speak(text): engine.say(text) engine.runAndWait() # 开始语音对话 speak('Hello, how can I help you?') while True: # 获取用户的语音输入 with sr.Microphone() as source: print('Speak something...') audio = r.listen(source) # 识别用户的语音输入并换为文本 try: text = r.recognize_google(audio) print('You said:', text) except sr.UnknownValueError: print('Sorry, I could not understand your voice.') continue except sr.RequestError: print('Sorry, my speech service is unavailable.') continue # 使用聊天机器人回答用户的问题 response = bot.get_response(text).text print('Bot:', response) # 将回答换为语音并播放出来 speak(response) ``` 注意:这里使用了第三方库SpeechRecognition和pyttsx3,请先使用pip install安装。另外,这只是一个简单的示例,实际上要实现一个好的语音对话机器人需要更加复杂和完善的算法和技术。
评论 150
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值