7b的模型还是不太聪明,多训练了几个epoch效果还是不佳,打算换13b的vicuna进行训练。
经过一些痛苦的美好的过程,总算是找到了13b的参数,用tree命令查看一下13B的文件夹
核对一下SHA256是否正确
shasum -a 256 consolidated.01.pth
接下来要得到vicuna-13B有两个步骤
1.下载转换脚本
2.运行脚本
python src/transformers/models/llama/convert_llama_weights_to_hf.py
--input_dir /path/to/downloaded/llama/weights --model_size 7B --output_dir /output/path
3.合并参数
python3 -m fastchat.model.apply_delta \
--base /path/to/llama-13b-hf \
--delta lmsys/vicuna-13b-delta-v0 \
--target /output/path/to/vicuna-13b
4.结果保存在vicuna-13b-weight-save中,使用tree命令看一下文件构造
至此,vicuna-13b的weight就找到了,可以重复之前的过程进行训练了。
训练过程
绷不住了,训练需要40G,目前实验室的服务器达不到这个标准
接下来考虑租服务器吧.....