实时语音交互系统阿里云语音识别+ChatGLM3-6B大模型

忧郁糕冷大帅哥

已于 2024-11-03 20:39:03 修改

阅读量1.8k

点赞数 26

文章标签：语音识别人工智能 python 语言模型物联网自然语言处理开发语言

于 2024-09-03 10:47:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74360180/article/details/141845105

版权

项目介绍：

该系统能够通过客户端的麦克风录制音频，将音频数据传输到服务器，服务器借助阿里云的语音识别技术将音频转换为文本，再通过加载的大模型对识别文本进行理解和生成回复，最终将大模型生成的回复反馈给客户端进行展示或操作。

本人使用的软硬件：

软：

CUDA Version: 12.4
Python：3.10

硬：

两块 NVIDIA GeForce RTX 2070

部署大模型：

1、下载

ChatGLM3-6B项目地址：

GitHub地址：https://github.com/THUDM/ChatGLM3https://github.com/THUDM/ChatGLM3

ChatGLM3-6B大模型地址：

Huggingface：https://huggingface.co/THUDM/chatglm3-6bhttps://huggingface.co/THUDM/chatglm3-6b

注：无法使用Huggingface下载大模型的可以使用魔塔下载，括弧可能不是最新的模型

2、安装

进入项目后切换到项目目录安装依赖

pip install -r requirements.txt

注：torch安装可能存在不是GPU版的，后缀+上cu多少就是GPU版本，可以注释掉自行使用whl来下载，自行百度（本人torch版本2.30.0+cu121）

3、运行

切换到项目的basic_demo目录

打开cli_demo.py

修改目录，运行代码（第一次启动可能会比较慢，耐心等待即可）

可以看到这样就运行出来了，（这是一个最原始的模型，如果想要微调可以等后续文章）

用的2块NVIDIA GeForce RTX 2070的卡运行，如果想用两张卡或更多同时运行

首先安装 accelerate，然后即可正常加载模型。

pip install accelerate

可以看出两张卡都在运行代码

代码到这就正常的运行了，部署也就完成了，接下来是语音识别，然后将这两个放在一起使用

实时语音识别：

本人使用的阿里云的实时语音识别，这里就不过多介绍了，可以自行设置，官网的代码是识别.pcm后缀的文件，我修改为了实时让他读取音频流然后识别反馈结果

具体的语音识别代码，可以私我

语音识别+ChatGLM3-6B大模型：

（小蛋友情出演......）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。