Chatglm2-6B学习笔记1_chatglm2-6b 学些-CSDN博客

本文链接：https://blog.csdn.net/Ying_ying_123/article/details/131636468

文章目录

Chatglm2-6B学习与实践笔记

@(莹莹的NLP)

Chatglm2-6B简介

Chatglm2-6B是Chatglm-6B的二代对话模型，除了拥有第一代对话流畅、部署门槛低的特性之外，还有以下几个优点：1.更强大的性能，在各个测评集上均有较大幅度的提升。2.可以接受更长的上下文，基座模型由chatglm-6b的2k提升至了32k，并在训练的过程中采用的是8k的对话上下文。3.更高效的推理，将Multi-Head Attention替换成了Multi-Query Attention，降低了显存占用，且加快了推理的速度。4.协议更加的开放，在取得许可的情况下，可进行商用。

Chatglm2-6B实践

Chatglm2-6B运行环境部署

由于之前已经搭建好的Chatglm-6B的环境，就直接在这个环境的基础上进行Chatglm2-6B的部署。

Chatglm2-6B模型权重文件下载地址

模型下载地址：https://www.huggingface.co/THUDM/chatglm2-6b/tree/main。因为使用的服务器不能联网，所有采用离线加载的形式，手动的将该链接下的files中的所有内容下载下来，在上传到服务器上去。

模型推理

代码调用的方式

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("/data/home/huangying-ghq/download/models/chatglm2-6b/", trust_remote_code=True)
model = AutoModel.from_pretrained("/data/home/huangying-ghq/download/models/chatglm2-6b/", trust_remote_code=True)
model = model.cuda(3).half().eval()
response, history = model.chat(tokenizer, "你好", history=[])
print(response)
print('*'*20)
response, history = model.chat(tokenizer, "年收入20万，购买寿险这类保险产品的建议有哪些呢", history=history)
print(response)