项目介绍:
该系统能够通过客户端的麦克风录制音频,将音频数据传输到服务器,服务器借助阿里云的语音识别技术将音频转换为文本,再通过加载的大模型对识别文本进行理解和生成回复,最终将大模型生成的回复反馈给客户端进行展示或操作。
本人使用的软硬件:
软:
- CUDA Version: 12.4
- Python:3.10
硬:
- 两块 NVIDIA GeForce RTX 2070
部署大模型:
1、下载
ChatGLM3-6B项目地址:
GitHub地址:https://github.com/THUDM/ChatGLM3https://github.com/THUDM/ChatGLM3
ChatGLM3-6B大模型地址:
Huggingface:https://huggingface.co/THUDM/chatglm3-6bhttps://huggingface.co/THUDM/chatglm3-6b
注:无法使用Huggingface下载大模型的可以使用魔塔下载,括弧可能不是最新的模型
2、安装
进入项目后切换到项目目录安装依赖
pip install -r requirements.txt
注:torch安装可能存在不是GPU版的,后缀+上cu多少就是GPU版本,可以注释掉自行使用whl来下载,自行百度(本人torch版本2.30.0+cu121)
3、运行
切换到项目的basic_demo目录
打开cli_demo.py
修改目录,运行代码(第一次启动可能会比较慢,耐心等待即可)
可以看到这样就运行出来了,(这是一个最原始的模型,如果想要微调可以等后续文章)
用的2块NVIDIA GeForce RTX 2070的卡运行,如果想用两张卡或更多同时运行
首先安装 accelerate,然后即可正常加载模型。
pip install accelerate
可以看出两张卡都在运行代码
代码到这就正常的运行了,部署也就完成了,接下来是语音识别,然后将这两个放在一起使用
实时语音识别:
本人使用的阿里云的实时语音识别,这里就不过多介绍了,可以自行设置,官网的代码是识别.pcm后缀的文件,我修改为了实时让他读取音频流然后识别反馈结果
具体的语音识别代码,可以私我
语音识别+ChatGLM3-6B大模型:
(小蛋友情出演......)