往期回顾
llama factory LoRA微调qwen大模型 | 新手炼丹记录(1)-CSDN博客
大模型使用llama.cpp转换gguf格式并量化 | 新手炼丹记录(2)-CSDN博客
ollama本地部署qwen微调大模型 | 新手炼丹记录(3)-CSDN博客
之前用本地机器微调qwen大模型,结果由于显存不够或者其他配置问题,总是无法正常训练,莫名其妙报错。只能去尝试一些参数很小的模型,qwen2:0.5b、gemma:2b之类的,实在不够看。
今天尝试使用了算力平台AutoDL算力云租赁计算资源来跑微调以及量化,尝试了qwen1.5:7b,效果还可以。最后微调、转化、量化完后将得到gguf模型下载到本地ollama部署。
本次炼丹记录大致分为三个部分: LoRA微调qwen大模型过程、llama.cpp转换格式并量化以及Ollama部署微调模型。接下来我将分三期详细讲述全过程,本次主要记录使用llama factory提供的webui,使用lora方法来对qwen1.5:7b模型进行微调。

一、前期准备
1、算力租赁
一般家用电脑或者笔记本没有足够的显存、内存来进行模型微调,因此我们需要租借第三方提供的算力资源,本次我使用的是AutoDL算力云。
首先我们来确认想要微调的模型需要多少资源才能跑起来,下面是llama factory官方的推荐图:

对于我们的7b模型进行LoRA微调大概是需要16GB的显存。
其次我们还需要注意需要依赖的Python环境、库版本,尤其是CUDA的

最低0.47元/天 解锁文章
2万+





