创新实训大模型篇1——《本地部署ChatGLM3-6B的细节指南》

锦尘233

已于 2024-05-30 16:51:37 修改

阅读量460

点赞数 5

分类专栏：山东大学软件学院创新实训个人博客文章标签：人工智能

于 2024-05-24 20:08:43 首次发布

本文链接：https://blog.csdn.net/m0_62303445/article/details/139183497

版权

山东大学软件学院创新实训个人博客专栏收录该内容

19 篇文章 0 订阅

订阅专栏

本地部署ChatGLM3-6B的细节指南

引言

ChatGLM3-6B是一款开源的双语对话语言模型，由Zhipu AI和清华大学联合开发。它在多种应用场景中表现优异，如对话系统、文档摘要和金融报告分析等。对于需要在本地部署ChatGLM3-6B并希望使用4比特量化以减少内存占用的用户，本指南将详细介绍如何在Windows平台上进行部署。

准备工作

硬件要求

GPU：至少需要一块具有6GB VRAM的GPU，用于4比特量化后的模型部署。如果没有GPU，也可以使用CPU进行推理，但速度会明显较慢。
内存：建议至少8GB RAM。

软件要求

操作系统：Windows 10或更高版本。
Python：建议使用Python 3.8或3.9版本。
CUDA：CUDA Toolkit 11.1或更高版本（如果使用GPU）。
驱动程序：最新版本的NVIDIA驱动程序。

环境配置

安装依赖库

创建虚拟环境：

python -m venv chatglm_env

激活虚拟环境：

chatglm_env\Scripts\activate

安装必要的Python库：

pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html
pip install transformers==4.30.2
pip install numpy
pip install accelerate

模型下载与安装

获取ChatGLM3-6B模型的权重和配置文件

从Hugging Face下载模型权重：

克隆仓库：

git clone https://github.com/THUDM/ChatGLM3
cd ChatGLM3

下载模型权重：可以使用Hugging Face的transformers库直接加载模型，也可以手动下载权重文件：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).quantize(4).cuda()

初步测试

运行基本测试脚本

验证模型是否成功部署并能正常工作：

编写测试脚本：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).quantize(4).cuda()

model = model.eval()

def chat_with_glm(prompt):
    response, history = model.chat(tokenizer, prompt, history=[])
    return response

prompt = "介绍一下ChatGLM3-6B模型。"
response = chat_with_glm(prompt)
print(response)