Unsloth高效微调Qwen2.5-VL实战指南

最新推荐文章于 2025-05-14 15:07:12 发布

KingDol_MIni

最新推荐文章于 2025-05-14 15:07:12 发布

阅读量1.4k

点赞数 24

分类专栏：深度学习大数据和机器学习文章标签： python 开发语言人工智能

本文链接：https://blog.csdn.net/m0_68856746/article/details/147947629

版权

大数据和机器学习同时被 2 个专栏收录

23 篇文章

订阅专栏

深度学习

12 篇文章

订阅专栏

本篇是一个基于 Unsloth 对 Qwen2.5‑VL 进行微调（Fine‑Tuning）的案例，并附上核心参考资料链接。示例中使用 Unsloth 的高效 API 和 LoRA 技术来降低显存占用，加速训练。

Unsloth高效微调Qwen2.5-VL实战指南

本文涵盖：

环境与依赖安装
自定义数据集准备
模型加载与配置
LoRA 与训练参数设置
训练脚本示例
评估与模型保存
拓展阅读及官方文档链接

一、环境与依赖安装

# 安装 Unsloth、Transformers、Datasets、VoiceQwen 等
pip install unsloth transformers datasets accelerate peft

Unsloth 提供了对 Qwen2.5‑VL 的高效加载与训练支持 Unsloth 文档https://docs.unsloth.ai/get-started/fine-tuning-guide?utm_source=chatgpt.com
Transformers、Datasets 与 Accelerate 是常用的基础库
PEFT（Parameter-Efficient Fine-Tuning）用于配置 LoRA 等高效微调技术

二、数据集准备

假设已有 JSONL 格式的数据集，每行包含：

{"image_path":"path/to/img.jpg","prompt":"问题：","response":"答案。"}

from datasets import load_dataset
from PIL import Image

# 加载本地 JSONL 数据
dataset = load_dataset("json", data_files="train.jsonl", split="train")

# 预处理函数：加载图像并拼接 prompt+response
def preprocess(example):
    img = Image.open(example["image_path"]).convert("RGB")
    text = example["prompt"] + example["response"]
    return {"image": img, "text": text}

dataset = dataset.map(preprocess, remove_columns=["image_path","prompt","response"])

使用 datasets 加载和批量预处理数据 (Unsloth 文档, Unsloth 文档)

Dataset的初始化详解（知识补充）

在Hugging Face的 datasets 库中，初始化一个 Dataset 或 DatasetDict 对象有多种方式，具体取决于数据来源（如列表、文件、公开数据集等）。下面重点介绍Dataset如何初始化：

一、从列表初始化（最基础方式）

适用于数据已存储在Python列表（每个元素为字典，键对应特征名）的场景。

示例：

from datasets import Dataset

# 假设数据是一个列表，每个元素是包含特征的字典
data_list = [
    {"image_path": "img1.jpg", "prompt": "describe the image", "response": "a cat sitting on a chair"},
    {"image_path": "img2.jpg", "prompt": "describe the image", "response": "a dog running in the park"},
]

# 初始化Dataset
dataset = Dataset.from_list(data_list)

# 查看结构
print(dataset)  # Dataset({features: ['image_path', 'prompt', 'response'], num_rows: 2})

二、从文件加载（CSV/JSON/Parquet等）

1. 加载CSV文件

from datasets import load_dataset

# 直接加载本地CSV文件
dataset = load_dataset("csv", data_files="data.csv")  # 返回DatasetDict（含'train'键）
dataset = dataset["train"]  # 提取单数据集

# 或指定列名和分隔符
dataset = load_dataset("csv", data_files="data.csv", names=["image_path", "prompt", "response"])

2. 加载JSON文件

# 每行一个JSON样本（JSONL格式）
dataset = load_dataset("json", data_files="data.jsonl")

# 或整个JSON文件是列表
dataset = load_dataset("json", data_files="data_list.json")

3. 加载Parquet/Excel等

# Parquet（高效存储格式，适合大规模数据）
dataset = load_dataset("parquet", data_files="data.parquet")

# Excel（需安装openpyxl库）
dataset = load_dataset("excel", data_files="data.xlsx", engine="openpyxl")

三、从Hugging Face数据集中心加载（公开数据集）

直接使用 load_dataset 加载预定义的公开数据集（如MNIST、GLUE、COCO等）。

示例：

# 加载图像数据集（如CIFAR-10）
cifar10 = load_dataset("cifar10")  # 返回DatasetDict（含'train'和'test'）

# 加载多模态数据集（如Flickr30K）
flickr30k = load_dataset("flickr30k", split="train")

# 加载自定义版本或配置
squad = load_dataset("squad", "plain_text", split="validation")  # squad的plain_text配置

四、自定义生成数据集（动态生成样本）

适用于数据需动态生成（如合成数据、实时数据）的场景，通过 generate_examples 函数定义样本生成逻辑。

示例：

from datasets import DatasetGenerator

def generate_data(num_samples):
    for i in range(num_samples):
        yield {
            "image_path": f"img_{i}.jpg",
            "prompt": f"describe image {i}",
            "response": f"a generated image {i}"
        }

# 生成100个样本的Dataset
dataset = DatasetGenerator.from_generator(generate_data, num_samples=100)

五、初始化DatasetDict（多数据集组合）

用于管理训练集、验证集、测试集等多个分片。

示例：

from datasets import DatasetDict, Dataset

# 分别创建各分片
train_data = Dataset.from_list(train_list)
val_data = Dataset.from_list(val_list)
test_data = Dataset.from_list(test_list)

# 组合为DatasetDict
dataset_dict = DatasetDict({
    "train": train_data,
    "validation": val_data,
    "test": test_data
})

# 或直接从文件加载多分片（如train.csv/val.csv/test.csv）
dataset_dict = load_dataset("csv", data_files={"train": "train.csv", "val": "val.csv", "test": "test.csv"})

六、初始化时指定特征结构（可选）

若数据格式不统一，可显式定义特征类型（如图像路径、文本、数值等）。

示例：

from datasets import Dataset, Features, Value, Sequence

# 定义特征结构
features = Features({
    "image_path": Value("string"),
    "prompt": Value("string"),
    "response": Value("string"),
    "scores": Sequence(Value("float32"))  # 数组类型
})

# 从列表初始化时指定特征
dataset = Dataset.from_list(data_list, features=features)

七、常见问题与注意事项

数据格式一致性：
- 列表中的每个样本必须是字典，且键（特征名）一致。
- 文件加载时需确保文件格式正确（如CSV无缺失列，JSONL每行是合法JSON）。

大规模数据处理：

使用 streaming=True 进行流式加载（适用于内存不足的场景）：

dataset = load_dataset("csv", data_files="large_data.csv", streaming=True)
dataset = dataset.shuffle(seed=42).take(1000)  # 流式处理

分片拆分：

用 train_test_split 拆分数据集：

dataset = dataset.train_test_split(test_size=0.2, seed=42)  # 返回DatasetDict

初始化 Dataset 的核心方法：

Dataset.from_list(data_list)：从Python列表创建（小规模数据）。
load_dataset(loader_name, data_files=...)：从文件或公开数据集加载（推荐大规模数据）。
DatasetDict：管理多分片数据集（训练/验证/测试）。

PIL 用于将图像统一转为 RGB 格式 Unsloth 文档https://docs.unsloth.ai/basics/vision-fine-tuning?utm_source=chatgpt.com

三、模型加载与配置

import torch
from unsloth import FastVisionModel, FastVisionConfig

# 自动选择 GPU/CPU
device = "cuda" if torch.cuda.is_available() else "cpu"

# 配置：4-bit 量化 + 窗口注意力 + 梯度检查点
config = FastVisionConfig.from_pretrained(
    "unsloth/Qwen2.5-VL-7B-Instruct",
    load_in_4bit=True,
    gradient_checkpointing="unsloth",
    quantization_method="dynamic2.0"
)

# 加载模型
model = FastVisionModel.from_pretrained(
    "unsloth/Qwen2.5-VL-7B-Instruct",
    config=config,
    device_map="auto"
)

FastVisionModel 是 Unsloth 针对视觉–语言模型的专用接口
4-bit 量化和动态2.0 量化可明显降低显存使用
梯度检查点（Gradient Checkpointing）节省反向传播显存 相关链接：LearnOpenCVhttps://learnopencv.com/unsloth-guide-efficient-llm-fine-tuning/?utm_source=chatgpt.com

四、LoRA 配置（PEFT）

from peft import LoraConfig, get_peft_model

lora_cfg = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj","v_proj"],
    lora_dropout=0.1,
    bias="none"
)

model = get_peft_model(model, lora_cfg)

LoRA 通过低秩分解方式仅微调少量参数，加快收敛并节省显存 相关链接Mediumhttps://gautam75.medium.com/fine-tuning-vision-language-models-using-lora-b640c9af8b3c?utm_source=chatgpt.com

五、训练脚本示例

from unsloth import Trainer, TrainingArguments
from transformers import DefaultDataCollator

training_args = TrainingArguments(
    output_dir="unsloth_qwen2.5vl",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=8,
    learning_rate=2e-5,
    max_steps=1500,
    fp16=True,
    logging_steps=50,
    save_steps=500
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=DefaultDataCollator(return_tensors="pt")
)

trainer.train()

Trainer + TrainingArguments 与 HF API 保持高度兼容Unsloth 文档https://docs.unsloth.ai/get-started/fine-tuning-guide?utm_source=chatgpt.com
小 batch + 多步累积梯度以适配显存受限场景

六、评估与模型保存

# 保存 LoRA 权重
model.save_pretrained("qwen2.5-vl-lora-finetuned/")

# 推理示例
from PIL import Image
img = Image.open("test.jpg").convert("RGB")
prompt = "请描述这张图片："

outputs = model.generate([{"image": img, "text": prompt}])
print(outputs[0]["generated_text"])