llama-Factory不宜直接挂接Ollama的大模型

前言

llama-Factory尝试使用Ollama本地安装的大模型。

一、在Ollama中安装QWen

安装qwen:0.5b

安装完成了:

同理安装qwen2.5:0.5b

安装完毕后,再用ollama list进行查看:

我们在chatbox中进行查看:

说明这两个大模型,已经通过Ollama安装到了本地。

二、试图在llama-Factory中挂接Ollama中的大模型

Llama-Factory起初启动的页面是这样,这两个框中是空的:

我们可以在Model Path当中填入Ollama中models的路径,具体如下:

如上图,我们惊奇的发现,随着有些models路径的填入,左侧模型下拉列表也出现了,

我们可以选择模型了。

于是,我选择了Qwen2.5:0.5B,如下图:

选择自带的数据集尝试微调:

会发现一堆错误,模型Load失败,如下图:

难道是llama-factory不适合从Ollama上加载模型么?

(或者说Ollama已经加载了模型,再用llama-factory来加载,是否造成了冲突)

错误的原因主要是:llama-Factory加载的模型需要是huggingface的,从魔搭社区下载比较合适。

### 如何对 Llama-Factory 进行微调并将模型导出至 Ollama #### 准备工作 在开始之前,需确保已安装必要的依赖项以及完成环境配置。Llama Factory 提供了一种灵活的方式来微调大型语言模型 (LLM),支持多种微调技术如 LoRA 和全量训练[^1]。 #### 数据准备 为了成功微调模型,需要准备好用于训练的数据集。通常情况下,这些数据应以 JSON 或 CSV 文件的形式存储,并包含输入文本和目标输出的对应关系。如果使用的是对话形式的数据,则可以采用特定模板来格式化数据以便于模型理解[^2]。 #### 微调参数定义 以下是设置微调所需的关键参数列表: - **model**: 指定基础预训练模型名称。 - **dataset**: 训练所用的数据集路径。 - **template**: 对话或任务的具体模板样式。 - **finetuning_type**: 使用哪种方法进行微调(例如LoRA适配器)。 - **output_dir**: 存储最终微调后模型的位置。 - **batch_size**: 批次大小控制每次迭代处理多少样本。 - **learning_rate_scheduler**: 调整学习率策略以优化收敛速度。 - **logging_steps**: 日志记录频率设定为每几步打印一次进度信息。 ```bash # 示例命令行脚本启动微调流程 python run.py \ --model="decapoda-research/llama-7b-hf" \ --dataset="./data/train.jsonl" \ --template="alpaca" \ --finetuning_type="lora" \ --output_dir="./outputs/lora-alpaca" \ --per_device_train_batch_size=4 \ --gradient_accumulation_steps=8 \ --lr_scheduler_type="cosine" ``` #### 导出量化后的GGUF文件 一旦完成了微调过程,下一步就是将得到的新权重保存下来并通过工具将其转化为Ollama兼容格式——即GGUF(Generic Graph Utilities Format)[^1]。这一步骤涉及加载PyTorch状态字典并应用适当层次上的剪枝或者混合精度压缩算法实现更高效的推理性能提升的同时减少磁盘占用空间需求。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer import torch def convert_to_gguf(model_path, output_file): tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained(model_path) # Convert to FP16 or INT8 as needed model.to(torch.float16).eval() # Export using ggml/ggjt utilities here... convert_to_gguf("./outputs/lora-alpaca", "./converted_model.gguf") ``` #### 配置Ollama服务端接收新模型 最后,在本地机器上运行Ollama服务器实例之后上传刚才生成好的`.gguf`文件即可让其立即可用作在线推断请求的一部分。通过简单的HTTP API接口就可以轻松集成到任何应用程序当中去提供实时聊天功能或者其他自然语言处理相关的能力扩展选项出来满足不同场景下的实际业务诉求点所在之处了!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青花瓷

您的鼓励是我创作的巨大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值