【自己搭建一个:端到端的语音+大模型聊天机器人】

本文介绍了如何搭建一个端到端的语音聊天机器人,利用wenet进行语音识别,Chinese-LLaMA-Alpaca-2作为语言模型,PaddleSpeech实现文本转语音。系统由两台CentOS服务器组成,分别运行STT、LLM和TTS模型。用户通过麦克风输入,经过STT转为文本,LLM处理对话,最后TTS将回应转化为语音。
摘要由CSDN通过智能技术生成

概要

发篇文章记录一下最近搞的语音+大模型聊天机器人的搭建过程,供交流学习。有正反馈的话会继续优化。

整体架构流程

注意:借传统的基于RASA的对话机器人的图一用,本博会把NLU(Natural Language Understanding)和 Dialogue Management这两个组件,用大模型来替代。
模型及组件之间的关系图
组件及模型说明:

  1. 用户通过麦克风输入语音(就是说话,本博是用户对着PC上的麦克风说话)
  2. STT(Speech-To-Text)模型:语音到文本的转换模型,本博采用开源的wenet模型(https://wenet.org.cn/wenet/python_package.html)
  3. NLU(Natural Language Understanding)和 Dialogue Management:本博采用Chinese-LLaMA-Alpaca-2(https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/llamacpp_zh)
  4. TTS(Text-To-Speech)模型:文本到语音的转换模型,本博采用开源的PaddleSpeech(https://github.com/PaddlePaddle/PaddleSpeech/wiki/PaddleSpeech-Server-RESTful-API)

硬件部分

采用了两台CentOS7.9的云服务器,具体配置如下:

第一台服务器(192.168.0.92):

4vCPUs | 16GiB | s3.xlarge.2 | CentOS 7.9 64bit

第二台服务器(192.168.0.222):

4vCPUs | 8GiB | s3.xlarge.2 | CentOS 7.9 64bit

环境部分

需要在两台服务器上准备Anaconda的Python环境,操作命令如下:

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh
vi ~/.bashrc
export PATH=$PATH:~/miniconda3/bin 
  • 25
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值