微调VisualGLM-6B的笔记

原创已于 2024-07-29 23:03:07 修改 · 705 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-07-28 12:57:11 首次发布

conda activate glm

export SAT_HOME=/home/root1/data/glm/VisualGLM-6B/THUDM/

这里我使用lora微调，之前使用qlora再加载微调后的数据时报错，暂时没解决，如果解决了再更新到后面

CUDA_VISIBLE_DEVICES=0,1,2 bash finetune/finetune_visualglm.sh --quant 4

在这里插入图片描述

…
显卡占用

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/1d5012a3784f4fcf895eb89383c9eba0.png

在这里插入图片描述
这是显卡占用，我用了三张卡，一张卡大概占15G

ValueError: No slot '4' specified on host 'localhost'

解决办法：参考指定卡训练下面这样设置：
在这里插入图片描述

CUDA_VISIBLE_DEVICES=2 python cli_demo.py --from_pretrained 'checkpoints/finetune-visualglm-6b-07-28-12-41' --quant 4

在这里插入图片描述

在这里插入图片描述
显卡占用

CUDA_VISIBLE_DEVICES=2 python web_demo.py --quant 4

在这里插入图片描述
因为使用的远程服务器，无法在本地直接打开web端网址，所以借助visdom在本地打开(下列安装操作已完成，不需重复安装)

python -m visdom.server

一切正常会输出下面：
在这里插入图片描述

不要在后面加端口号

ssh -L 8080:127.0.0.1:7860 root1@xxx.xxx.xxx.xxx
ssh -L [本地端口]:[远程地址]:[远程端口] [用户名]@[远程服务器地址]

在这里插入图片描述

弹出输入服务器密码的提示，输入密码，回车，如上图所示。

http://127.0.0.1:8080/

我们先使用官方给的微调数据进行测试
在这里插入图片描述
此时服务器端也会出现：

上述这个是加载的微调之前的模型，下面是加载我们微调之后的模型

根据微调后的模型怎么放入web_demo中进行使用啊？我们修改web_demo.py和/home/root1/data/glm/VisualGLM-6B/model/infer_util.py
在这里插入图片描述
和加载微调之前的模型一样，输入如下代码：

CUDA_VISIBLE_DEVICES=2 python web_demo.py --quant 4

在这里插入图片描述
如何在本机打开web端，可以上述内容，即加载微调后的模型进行推理