实时语音交互系统 阿里云语音识别+ChatGLM3-6B大模型

项目介绍:

该系统能够通过客户端的麦克风录制音频,将音频数据传输到服务器,服务器借助阿里云的语音识别技术将音频转换为文本,再通过加载的大模型对识别文本进行理解和生成回复,最终将大模型生成的回复反馈给客户端进行展示或操作。

本人使用的软硬件:

软:

  • CUDA Version: 12.4
  • Python:3.10

硬:

  • 两块 NVIDIA GeForce RTX 2070

部署大模型:

1、下载
 ChatGLM3-6B项目地址:

GitHub地址:https://github.com/THUDM/ChatGLM3icon-default.png?t=N7T8https://github.com/THUDM/ChatGLM3

ChatGLM3-6B大模型地址:

Huggingface:https://huggingface.co/THUDM/chatglm3-6bicon-default.png?t=N7T8https://huggingface.co/THUDM/chatglm3-6b

注:无法使用Huggingface下载大模型的可以使用魔塔下载,括弧可能不是最新的模型

2、安装

进入项目后切换到项目目录安装依赖

pip install -r requirements.txt

注:torch安装可能存在不是GPU版的,后缀+上cu多少就是GPU版本,可以注释掉自行使用whl来下载,自行百度(本人torch版本2.30.0+cu121)

3、运行

切换到项目的basic_demo目录

打开cli_demo.py

修改目录,运行代码(第一次启动可能会比较慢,耐心等待即可)

 

可以看到这样就运行出来了,(这是一个最原始的模型,如果想要微调可以等后续文章)

用的2块NVIDIA GeForce RTX 2070的卡运行,如果想用两张卡或更多同时运行

首先安装 accelerate,然后即可正常加载模型。

pip install accelerate

 可以看出两张卡都在运行代码

代码到这就正常的运行了,部署也就完成了,接下来是语音识别,然后将这两个放在一起使用

实时语音识别:

本人使用的阿里云的实时语音识别,这里就不过多介绍了,可以自行设置,官网的代码是识别.pcm后缀的文件,我修改为了实时让他读取音频流然后识别反馈结果

具体的语音识别代码,可以私我

语音识别+ChatGLM3-6B大模型:

(小蛋友情出演......)

在图中展示的客户端与服务端交互中,延迟被优化至毫秒级别,实现了几乎零延迟的即时反馈,使得用户能够立刻接收到响应信息,极大提升了交互体验。同时,大模型代码通过灵活的工具调用机制,支持高度的功能定制,例如简单的天气查询和楼层介绍等基础功能,同时也可以根据实际需求进行更复杂的定制,满足各种业务场景的需求。这种设计不仅增强了系统的适应性和扩展性,还确保了用户能够享受到快速、精准和个性化的服务。

总结:

在本项目中,我将语音识别技术与ChatGLM3-6B大模型紧密结合,构建了一个高效的实时语音交互系统。通过优化客户端和服务端的配合,系统能够实现毫秒级别的延迟,提供几乎即时的反馈,显著提升了用户体验。同时,系统经过精心设计,集成了多项人性化设置,确保了自然、流畅的交互过程。

尽管目前的系统框架已经具备了强大的功能,但仍留有广阔的优化空间。例如,我们可以将现有的语音识别模块替换为自研的解决方案,以提高系统的个性化和适应能力。此外,该系统的设计具有高度的扩展性,不仅支持各种音频功能设备,还计划将Android设备作为客户端进行集成,以适应更广泛的应用场景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值