从零开始搭建一个语音对话机器人

最新推荐文章于 2024-11-19 10:41:06 发布

全栈开发者社区

最新推荐文章于 2024-11-19 10:41:06 发布

阅读量1.5k

点赞数 3

点击上方[全栈开发者社区]→右上角[...]→[设为星标⭐]

640?

♪ 点击上方绿标收听从零开始搭建一个语音对话机器人

从零开始搭建一个语音对话机器人

01-初心缘由

01-准备工作

02-语音机器人的搭建思路

03-语音生成音频文件

04-音频文件转文字STT

05-与图灵机器人对话

06-文字转语音

07-语音对话机器人的完整代码

08-结束语

01-初心缘由

最近在研究语音识别方向，看了很多的语音识别的资料和文章，了解了一下语音识别的前世今生，其中包含了很多算法的演变，目前来说最流行的语音识别算法主要是依赖于深度学习的神经网络算法，其中RNN扮演了非常重要的作用，深度学习的应用真正让语音识别达到了商用级别。然后我想动手自己做一个语音识别系统，从GitHub上下载了两个流行的开源项目MASR和ASRT来进行复现，发现语音识别的效果没有写的那么好，其中如果要从零来训练自己的语言模型势必会非常耗时。

因此，就有了一个新的想法，借助一些开源的语音识别SDK来实现语音识别，来看看他们语音识别的效果如何。于是想到了百度和科大讯飞，然后就百度了一下，百度搜索举贤不避亲的给我推荐了百度AI开放平台！然后查看了百度语音识别的技术文档，发现对python的支持非常友好，而科大讯飞好像没有提供对python的接口支持，因而选定了百度。

640?wx_fmt=png

虽然百度目前槽点很多，但是不得不说百度在AI方面的投入和开放是值得点赞的！百度的AI开放平台确实为开发者们带来很多的便利性，开放了非常多的AI服务，大家自行去注册使用，百度大脑AI开放平台地址：http://ai.baidu.com/

经过体验发现百度的语音识别准确率高的吓人，完爆了GitHub上的开源项目N条街，然后在CSDN浏览各位博主的博客时发现，用百度语音识别的API和图灵机器人的API可以做一个实时语音对话的机器人，感觉特别兴奋，从而决定搭建一个自己的语音对话机器人。目前，我已经实现了我的语音对话机器人，因此特意来分享一下整个的实现过程和遇到的坑，让大家可以快速的构建你们的语音对话机器人。好啦，我们开始吧！

02-准备工作

（1）准备python开发环境

需要准备的python包包括：speech_recognition(语音识别包)、pyaudio(录音接口)、wave(打开录音文件并设置音频参数)、pyttst3(文本转语音)、json(解析json串)、requests(get/post)、baid_aip(百度语音识别的aip)。

（2）准备百度API

登录百度AI开放平台语音识别：https://ai.baidu.com/tech/speech/asr ，如果没有账号自己注册即可，免费试用哦。

点击技术文档：阅读语音识别的技术文档，重点查看API文档和Python SDK，了解如何在python中调用API接口。

640?wx_fmt=png

击立即使用：进入到服务界面，创建应用。记住最重要的App ID、API Key、Secret Key，后面调用时需要用到。

640?wx_fmt=png

（3）准备图灵机器人：

图灵机器人大脑具备强大的中文语义分析能力，可准确理解中文含义并作出回应，是最擅长聊中文的机器人大脑，赋予软硬件产品自然流畅的人机对话能力。图灵机器人是中文语境下智能度最高的“机器人大脑”，是全球较为先进的机器人中文语言认知与计算平台，图灵机器人对中文语义理解准确率已达90%，可为智能化软硬件产品提供中文语义分析、自然语言对话、深度问答等人工智能技术服务。——源于百科（好吧，又和百度扯上点关系了。）

总之，就是需要你去图灵机器人官网，注册成功后，构建一个属于你的图灵机器人，用于后续将翻译后的文本内容对图灵机器人提问获取回答，然后我们通过TTS处理就可以获取语音输出了。

注册后创建自己的机器人，然后在机器人设置的终端设置中查看自己的apikey(这个key非常重要)，另外一定要把密钥开关关闭，不然后面在调用api时会报3001错误，无法调用图灵机器人！

640?wx_fmt=png

03-语音机器人的搭建思路

1、首先明确我们要实现的目标，是要实现纯语音对话聊天，不需要输入文字交流。我们实时说，机器人实时回复，真正实现语音交互对话。

2、整个过程的实现流程是这样的，我们说一句话，通过录音保存为语音文件，然后调用百度API实现语音转文本STT，再然后调用图灵机器人API将文本输入得到图灵机器人的回复，最后将回复的文本转成语音输出TTS，就这样我们就实现了和机器人的语音对话了！是不是有点绕，来个流程图吧！

3、语音对话机器人的构建具体流程图，就是各种掉API，千万不要觉得头晕哦，思路清晰才能走下去。

640?wx_fmt=png

04-语音生成音频文件

语音生产文件就需要进行录音，将我们说的话保存下来，至于保存的格式我一般都是保存为wav，其他格式支持pcm，不太建议mp3，因为需要多次转换。【百度服务端会将非pcm格式，转为pcm格式，因此使用wav会有额外的转换耗时，但是windows自带播放器识别不了pcm格式的，所以我还是喜欢用wav格式】

第一种录音方式：使用speech_recognition包进行录音，这个录音出来的效果比较好，而且代码量非常少。

import speech_recognition as sr	
	
# Use SpeechRecognition to record 使用语音识别包录制音频	
def my_record(rate=16000):	
    r = sr.Recognizer()	
    with sr.Microphone(sample_rate=rate) as source:	
        print("please say something")	
        audio = r.listen(source)	
	
    with open("voices/myvoices.wav", "wb") as f:	
        f.write(audio.get_wav_data())	
    print("录音完成！")	
	
my_record()

第二种录音方式：使用wave和pyaudio包进行录音，在python中直接使用pip install即可。

import wave	
from pyaudio import PyAudio, paInt16	
	
framerate = 16000  # 采样率	
num_samples = 2000  # 采样点	
channels = 1  # 声道	
sampwidth = 2  # 采样宽度2bytes	
FILEPATH = 'voices/myvoices.wav'	
	
	
def save_wave_file(filepath, data):	
    wf = wave.open(filepath, 'wb')	
    wf.setnchannels(channels)	
    wf.setsampwidth(sampwidth)	
    wf.setframerate(framerate)	
    wf.writeframes(b''.join(data))	
    wf.close()	
	
#录音	
def my_record():	
    pa = PyAudio()	
    #打开一个新的音频stream	
    stream = pa.open(format=paInt16, channels=channels,	
                     rate=framerate, input=True, frames_per_buffer=num_samples)	
    my_buf = [] #存放录音数据	
	
    t = time.time()	
    print('正在录音...')	
 	
    while time.time() < t + 10:  # 设置录音时间（秒）	
      #循环read，每次read 2000frames	
        string_audio_data = stream.read(num_samples)	
        my_buf.append(string_audio_data)	
    print('录音结束.')	
    save_wave_file(FILEPATH, my_buf)	
    stream.close()

05-音频文件转文字STT

我们已经在上面获取到了音频文件，那要怎么把音频文件转化为文字呢？在这里，我们就需要调用百度的语音识别API接口，同时我们需要安装这个接口包，导入模块：pip install baidu_aip。导入我们需要的模块名，然后将音频文件发送给出去，返回文字。

# 音频文件转文字：采用百度的语音识别python-SDK	
# 百度语音识别API配置参数	
from aip import AipSpeech	
	
APP_ID = 'your app_id'	
API_KEY = 'your api_key'	
SECRET_KEY = 'your secret_key'	
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)	
path = 'voices/myvoices.wav'	
	
	
# 将语音转文本STT	
def listen():	
    # 读取录音文件	
    with open(path, 'rb') as fp:	
        voices = fp.read()	
    try:	
        # 参数dev_pid：1536普通话(支持简单的英文识别)、1537普通话(纯中文识别)、1737英语、1637粤语、1837四川话、1936普通话远场	
        result = client.asr(voices, 'wav', 16000, {'dev_pid': 1537, })	
        # result = CLIENT.asr(get_file_content(path), 'wav', 16000, {'lan': 'zh', })	
        # print(result)	
        # print(result['result'][0])	
        # print(result)	
        result_text = result["result"][0]	
        print("you said: " + result_text)	
        return result_text	
    except KeyError:	
        print("KeyError")

06-与图灵机器人对话

上一步我们已经成功将我们的声音转化为文字了，然后我们再调用图灵机器人的API接口，做自动应答。图灵机器人对中文的识别准确率高达90%，是目前中文语境下智能度最高的机器人。有很多在Python中使用图灵机器人API的博客，但都是1.0版本，本博客介绍的是在Python中使用图灵机器人API v2.0的方法，1.0版本的调用方式已失效。

代码如下（这里需要导入requests、json模块）：

# 与机器人对话：调用的是图灵机器人	
import requests	
import json	
	
# 图灵机器人的API_KEY、API_URL	
turing_api_key = "your turing_api_key"	
api_url = "http://openapi.tuling123.com/openapi/api/v2"  # 图灵机器人api网址	
headers = {'Content-Type': 'application/json;charset=UTF-8'}	
	
	
# 图灵机器人回复	
def Turing(text_words=""):	
    req = {	
        "reqType": 0,	
        "perception": {	
            "inputText": {	
                "text": text_words	
            },	
	
            "selfInfo": {	
                "location": {	
                    "city": "北京",	
                    "province": "北京",	
                    "street": "车公庄西大街"	
                }	
            }	
        },	
        "userInfo": {	
            "apiKey": turing_api_key,  # 你的图灵机器人apiKey	
            "userId": "Nieson"  # 用户唯一标识(随便填, 非密钥)	
        }	
    }	
	
    req["perception"]["inputText"]["text"] = text_words	
    response = requests.request("post", api_url, json=req, headers=headers)	
    response_dict = json.loads(response.text)	
	
    result = response_dict["results"][0]["values"]["text"]	
    print("AI Robot said: " + result)	
    return result


07-文字转语音

我们得到了图灵机器人的回复之后，就需要把结果转化为语音输出，从而实现语音交互。在python中我们如何将文字转为语音并输出呢？这里就需要用到另一个模块pyttsx3，它会将文字转为语音。

import pyttsx3	
	
# 初始化语音	
engine = pyttsx3.init()  # 初始化语音库	
# 设置语速	
rate = engine.getProperty('rate')	
engine.setProperty('rate', rate-50)	
# 输出语音	
engine.say("你好，很高兴认识你！")  # 合成语音	
engine.runAndWait()

使用python进行编程就是有很多好处，比如音频的输出我们就可以采用多种方式，下面提供一种更加简便的音频输出方式：

import win32com.client	
	
speaker = win32com.client.Dispatch("SAPI.SpVoice")	
speaker.Speak("我是语音助手，小灵！")

好了，至此，我们语音机器人的所有元素都已经准备妥当，接下来进行组装！

08-语音对话机器人的完整代码

经过我的努力，已经将代码优化到了100行左右哦，按照我的步骤来，你就可以快速复现构建你的语音机器人了！

# -*- coding: utf-8 -*-#	
# -------------------------------	
# Name:SpeechRobot	
# Author:Nieson	
# Date:2019/7/19 16:31	
# 用python3实现自己的语音对话机器人	
# -------------------------------	
	
from aip import AipSpeech	
import requests	
import json	
import speech_recognition as sr	
import win32com.client	
	
# 初始化语音	
speaker = win32com.client.Dispatch("SAPI.SpVoice")	
	
	
# 1、语音生成音频文件,录音并以当前时间戳保存到voices文件中	
# Use SpeechRecognition to record 使用语音识别录制	
def my_record(rate=16000):	
    r = sr.Recognizer()	
    with sr.Microphone(sample_rate=rate) as source:	
        print("please say something")	
        audio = r.listen(source)	
	
    with open("voices/myvoices.wav", "wb") as f:	
        f.write(audio.get_wav_data())	
	
	
# 2、音频文件转文字：采用百度的语音识别python-SDK	
# 导入我们需要的模块名，然后将音频文件发送给出去，返回文字。	
# 百度语音识别API配置参数	
APP_ID = 'your app_id'	
API_KEY = 'your api_key'	
SECRET_KEY = 'your secret_key'	
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)	
path = 'voices/myvoices.wav'	
	
	
# 将语音转文本STT	
def listen():	
    # 读取录音文件	
    with open(path, 'rb') as fp:	
        voices = fp.read()	
    try:	
        # 参数dev_pid：1536普通话(支持简单的英文识别)、1537普通话(纯中文识别)、1737英语、1637粤语、1837四川话、1936普通话远场	
        result = client.asr(voices, 'wav', 16000, {'dev_pid': 1537, })	
        # result = CLIENT.asr(get_file_content(path), 'wav', 16000, {'lan': 'zh', })	
        # print(result)	
        # print(result['result'][0])	
        # print(result)	
        result_text = result["result"][0]	
        print("you said: " + result_text)	
        return result_text	
    except KeyError:	
        print("KeyError")	
        speaker.Speak("我没有听清楚，请再说一遍...")	
	
	
# 3、与机器人对话：调用的是图灵机器人	
# 图灵机器人的API_KEY、API_URL	
turing_api_key = "your turing_api_key"	
api_url = "http://openapi.tuling123.com/openapi/api/v2"  # 图灵机器人api网址	
headers = {'Content-Type': 'application/json;charset=UTF-8'}	
	
	
# 图灵机器人回复	
def Turing(text_words=""):	
    req = {	
        "reqType": 0,	
        "perception": {	
            "inputText": {	
                "text": text_words	
            },	
	
            "selfInfo": {	
                "location": {	
                    "city": "北京",	
                    "province": "北京",	
                    "street": "西二旗"	
                }	
            }	
        },	
        "userInfo": {	
            "apiKey": turing_api_key,  # 你的图灵机器人apiKey	
            "userId": "Nieson"  # 用户唯一标识(随便填, 非密钥)	
        }	
    }	
	
    req["perception"]["inputText"]["text"] = text_words	
    response = requests.request("post", api_url, json=req, headers=headers)	
    response_dict = json.loads(response.text)	
	
    result = response_dict["results"][0]["values"]["text"]	
    print("AI Robot said: " + result)	
    return result	
	
	
# 语音合成，输出机器人的回答	
while True:	
    my_record()	
    request = listen()	
    response = Turing(request)	
    speaker.Speak(response)