一.准备工作
配置
微调大模型首先要一个很好的显卡 可以去AutoDLhttps://www.autodl.com/login去租一个4090
连接主机
个人喜欢用vscode去连接
下载ssh扩展
然后ctrl+shift+p输入ssh连接(主机开机后会有ssh连接 复制就行了)
输入密码 等待连接
在github里下载想要调试的大模型
搜索模型名称然后复制链接就行
在vscode终端输入
git clone
加链接
把文件下载到主机的文件里(一般在/root/下以模型名命名的文件)
然后再运行里面的python文件,一般是cli_demo.py(这里可能要下一次python扩展 下载一下就行)
然后看报错 看哪些库没有 pip install 库名下载一下
最后运行
这个运行大概率会报错
下载另一个预训练模型
https://www.modelscope.cn/models?name=GLM-4&page=1
在魔塔社区下载要用的模型,搜索一下,然后找到要用的模型(最好5-9B)
然后
点击下载模型;建议使用sdk下载复制里面的py代码
在vscode里新建一个python文件然后运行(注意要先保存后运行)
下载过后,此文件应该在/root/.modelscope里,复制新模型的地址,在cli_demo.py的path路径替换并运行。
到这里,已经完成了对基础大模型的训练
二。微调大模型
首先,需要
git clone https://github.com/hiyouga/LLaMA-Factory
下载LLaMa
下载之后,打开这个文件
cd LLaMA-Factory/,运行
pip install -r requirements.txt
这个文件里有好多库,下载一下。
之后打开src,运行webui.py,这是前端页面文件。
运行结果是这样的
再打开code,打开data,dataset.info.json文件
复制第一行,然后把identity改了,file_name改为自己的json文件(要把自己的json文件导入data文件夹下,复制粘贴就行),json文件的格式什么的网上都有,这里不赘述。
之后需要填型号名称,模型路径就是在vscode里的modelscope的预训练模型的路径。
数据集填改了的id,其他的不用管,然后把下面的4个选项一次点一遍。
这里会报错:
在终端输入
运行就好。
等微调之后,点入聊天页面,填入检查点路径,荷载模型就完成了