1.激活虚拟环境
conda activate glm
2.设置模型路径
export SAT_HOME=/home/root1/data/glm/VisualGLM-6B/THUDM/
3.微调模型
这里我使用lora微调,之前使用qlora再加载微调后的数据时报错,暂时没解决,如果解决了再更新到后面
CUDA_VISIBLE_DEVICES=0,1,2 bash finetune/finetune_visualglm.sh --quant 4
…
这是显卡占用,我用了三张卡,一张卡大概占15G
如果我只有4号和5号卡空闲的话,如果还是使用CUDA_VISIBLE_DEVICES=4,5可能会报错:
ValueError: No slot '4' specified on host 'localhost'
解决办法:参考指定卡训练下面这样设置:
4.加载微调后的模型
CUDA_VISIBLE_DEVICES=2 python cli_demo.py --from_pretrained 'checkpoints/finetune-visualglm-6b-07-28-12-41' --quant 4
显卡占用
4.使用web_demo.py启动web端(加载微调之前的模型)
CUDA_VISIBLE_DEVICES=2 python web_demo.py --quant 4
因为使用的远程服务器,无法在本地直接打开web端网址,所以借助visdom在本地打开(下列安装操作已完成,不需重复安装)
4.1 启动visdom.server
python -m visdom.server
一切正常会输出下面:
4.2 注意,在本地电脑!!!终端输入:
不要在后面加端口号
ssh -L 8080:127.0.0.1:7860 root1@xxx.xxx.xxx.xxx
ssh -L [本地端口]:[远程地址]:[远程端口] [用户名]@[远程服务器地址]
弹出输入服务器密码的提示,输入密码,回车,如上图所示。
4.3 在本机打开网页
http://127.0.0.1:8080/
我们先使用官方给的微调数据进行测试
此时服务器端也会出现:
上述这个是加载的微调之前的模型,下面是加载我们微调之后的模型
5.使用web_demo.py启动web端(加载微调之后的模型)
根据微调后的模型怎么放入web_demo中进行使用啊?我们修改web_demo.py和/home/root1/data/glm/VisualGLM-6B/model/infer_util.py
和加载微调之前的模型一样,输入如下代码:
CUDA_VISIBLE_DEVICES=2 python web_demo.py --quant 4
如何在本机打开web端,可以上述内容,即加载微调后的模型进行推理