chatglm2-6b-int4大语言模型家用电脑部署

最新推荐文章于 2024-04-29 11:36:24 发布

图恩

最新推荐文章于 2024-04-29 11:36:24 发布

阅读量1.1k

点赞数

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/breakcastle/article/details/132377861

版权

介绍

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGLM 相同的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

ChatGLM-6B-INT4 是 ChatGLM-6B 量化后的模型权重。具体的，ChatGLM-6B-INT4 对 ChatGLM-6B 中的 28 个 GLM Block 进行了 INT4 量化，没有对 Embedding 和 LM Head 进行量化。量化后的模型理论上 6G 显存（使用 CPU 即内存）即可推理，具有在嵌入式设备（如树莓派）上运行的可能。

在 CPU 上运行时，会根据硬件自动编译 CPU Kernel ，请确保已安装 GCC 和 OpenMP （Linux一般已安装，对于Windows则需手动安装），以获得最佳并行计算能力。

安装anaconda

下载anaconda，通过bash Anaconda3-2023.03-Linux-x86_64.sh 安装anaconda包

Free Download | Anaconda

下载git代码

git clone https://gitee.com/wilkwo/ChatGLM2-6B.git

通过项目内的requirements.txt 文件安装项目依赖

pip install -r requirements.txt

下载模型数据，将下载好的文件放到项目根目录下新建的int4目录

https://huggingface.co/THUDM/chatglm2-6b-int4

修改cli_demo.py文件中的目录为上面新建的Int4目录

tokenizer = AutoTokenizer.from_pretrained("./int4", trust_remote_code=True)
model = AutoModel.from_pretrained("./int4", trust_remote_code=True).cuda()
# 多显卡支持，使用下面两行代替上面一行，将num_gpus改为你实际的显卡数量
# from utils import load_model_on_gpus
# model = load_model_on_gpus("THUDM/chatglm2-6b", num_gpus=2)
model = model.eval()

启动命令行模型

python3 cli_demo.py

如果出现对话输入提示并且输入内容后能返回相应结果表明服务启动成功。

如果出现问题：Library cudart is not initialized，解决办法是通过conda安装相应的cudatoolkit驱动：

conda install cudatoolkit=11.3 -c nvidia

图恩

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
chatglm2-6b-int4大语言模型家用电脑部署

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，基于架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和ChatGLM相同的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
复制链接

扫一扫