windows本地部署开源自然语言模型ChatGLM3-6b

前言

首先感谢智谱AI和清华大学 KEG 实验室联合开源的ChatGLM3对话预训练模型,让我们国人有属于自己的AI聊天机器人。

ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。

默认情况下,模型以 FP16 精度加载,测试运行需要大概 16GB 显存。如果你的 GPU 显存有限,可以尝试以量化方式加载模型,或者CPU运算方式测试运行模型,下面流程是基于GPU的。

ChatGLM2和ChatGLM3性能对比

与二代模型相比,其效果平均提升了超过 50%

安装流程

1 部署python>=3.10运行环境(使用conda)

2 安装cuda和cudnn(比较麻烦,cudnn需要登录NVIDIA,cudnn下载我是科学上网通过的

3 安装torch和torch.cuda

4 chatGML3源码下载

5 chatGML3-6b-8k模型下载

6 修改测试代码模型的路径为本地

下载安装conda

conda是什么不过多介绍了,自行百度。。

下载地址:Free Download | Anaconda

安装对应版本的CUDA 和 cuDNN

好吧,先说一下cuda是什么还有cuDNN是什么

CUDA 是 NVIDIA 公司推出的一种通用并行计算架构,全称为 Compute Unified Device Architecture。它旨在让软件开发人员能够利用 NVIDIA GPU(图形处理器)的强大并行计算能力来解决复杂的计算问题,尤其是在那些原本由 CPU(中央处理器)执行时效率较低或耗时较长的任务上。

cuDNN 是 NVIDIA 提供的用于深度神经网络的 GPU 加速库,它高效实现了深度学习中常见的运算原语(如卷积、池化、归一化和激活函数),旨在提升深度学习模型训练和推理的性能、易用性和内存效率。

注意:CUDA和cuDNN在模型测推理和下载pytorch版本时候都是相关联的

查看自己电脑对应的cuda版本号

按住win + R 调出命令终端,输出cmd

nvidia-smi

上图红色框内的12.4就是cuda的版本

CUDA的安装链接: CUDA 

本地和软件下载都一样不要纠结。。。。。这个文件也比较大,需要一些时间。

这是一个很详细的cuda和cuDNN安装教程,包括一些环境变量的配置:链接: CUDA安装教程.

创建虚拟环境

 conda create -n chatglm3 python=3.10

 conda activate chatglm3

 conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

注意:python版本需要>=3.10 

pytorch-cuda版本的查看地址: pytorch

注意:pytorch-cuda=12.1   12.1要修改为您自己对应的版本,而且版本一定要和cuda的版本对应!

验证torch.cuda是否安装成功

import torch
print(torch.cuda.is_available())


返回true代表成功 

ChatGLM3源码安装

切换到conda

模型基础运行代码已经上传到 github 和 SwanHub 两个平台,两个平台的信息同步。开发者通过以下方式下载模型代码。

从 github 下载源码

git clone https://github.com/THUDM/ChatGLM3.git

从 SwanHub 下载源码

git clone https://swanhub.co/ZhipuAI/ChatGLM3.git

 安装扩展

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

下载预训练好的基础模型文件 

Huggingface 下载

git lfs install
git clone https://huggingface.co/THUDM/chatglm3-6b.git

Modelscope 下载

git lfs install
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

SwanHub 下载

git lfs install
git clone https://swanhub.co/ZhipuAI/chatglm3-6b.git

注意:这里文件比较大,需要一些时间的,下载好就是下面的样子

 测试模型demo

MODEL_PATH 是模型文件存储的地方,也就是预训练的基础文件目录
TOKENIZER_PATH 是分词器目录,和MODEL_PATH一样就可以

注意:我的显卡是4090 24G显存,如果你的低于这个配置,最好模型量化测试,不然不知道显卡会不会烧坏。。。。

模型量化 

量化方式加载模型,使用方法如下:

model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).quantize(4).cuda()

CPU 部署 

如果你没有 GPU 硬件的话,也可以在 CPU 上进行推理,但是推理速度会更慢。

注意:除了慢还需要至少32G以上内存

model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).float()

 运行测试
 

测试文件在basic_demo目录下 

python cli_demo.py

 当出现一下画面,就可以和chatglm3对话了!!!兄弟,点个赞吧!!!!

web_demo_gradio.py 是页面的demo,python  web_demo_gradio.py 运行。

关注我:后续还会更新如何微调 chatglm3 ,也就是让它成为你的个性化ai智能语言模型。

  • 28
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值