使用 swift 微调 Qwen3-4b 模型

Qwen3 官方建议使用包括 Axolotl、UnSloth、Swift、Llama-Factory 等训练框架,以使用 SFT、DPO、GRPO 等微调模型。

ms-swift是魔搭社区提供的大模型与多模态大模型微调部署框架,现已支持500+大模型与200+多模态大模型的训练(预训练、微调、人类对齐)、推理、评测、量化与部署。其中大模型包括:Qwen3、Qwen3-MoE、Qwen2.5、InternLM3、GLM4、Mistral、DeepSeek-R1、Yi1.5、TeleChat2、Baichuan2、Gemma2等模型,多模态大模型包括:Qwen2.5-VL、Qwen2-Audio、Llama4、Llava、InternVL2.5、MiniCPM-V-2.6、GLM4v、Xcomposer2.5、Yi-VL、DeepSeek-VL2、Phi3.5-Vision、GOT-OCR2等模型。

除此之外,ms-swift汇集了最新的训练技术,包括LoRA、QLoRA、Llama-Pro、LongLoRA、GaLore、Q-GaLore、LoRA+、LISA、DoRA、FourierFt、ReFT、UnSloth、和Liger等轻量化训练技术,以及DPO、GRPO、RM、PPO、KTO、CPO、SimPO、ORPO等人类对齐训练方法。ms-swift支持使用vLLM和LMDeploy对推理、评测和部署模块进行加速,并支持使用GPTQ、AWQ、BNB等技术对大模型进行量化。ms-swift还提供了基于Gradio的Web-UI界面及丰富的最佳实践。

Swift官方文档:

### 微调 Qwen2.5-VL-7B 模型的方法 对于希望微调 `Qwen2.5-VL-7B` 模型的研究人员或开发者而言,可以遵循特定流程来实现这一目标。此过程通常涉及准备数据集、配置训练环境以及执行实际的微调操作。 #### 准备工作 为了开始微调,首先需要下载预训练模型并设置合适的开发环境: ```bash modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir ./Qwen2_5-VL-7B-Instruct [^1] ``` 上述命令用于获取指定版本的基础模型文件到本地目录以便后续处理[^1]。 #### 数据集构建 针对具体应用场景收集标注过的图像与文本配对样本作为输入数据源至关重要。这些数据应当被整理成适合视觉语言模型理解的形式,即每条记录应包含一张图片及其对应的描述文字。 #### 配置参数调整 在启动正式训练之前,还需定义一些必要的超参设定,比如学习率、批次大小等。这可以通过修改官方提供的默认配置文件完成,或者依据项目需求自定义新的配置选项。 #### 执行微调脚本 利用框架自带工具或是编写Python脚本来加载先前保存下来的权重,并传入新采集的数据进行迭代优化直至收敛满意为止。下面给出一段简化版伪代码示意如何着手这项任务: ```python from transformers import AutoModelForVision2Seq, Trainer, TrainingArguments # 加载基础模型 model = AutoModelForVision2Seq.from_pretrained("./Qwen2_5-VL-7B-Instruct") # 定义训练参数 training_args = TrainingArguments( output_dir='./results', num_train_epochs=3, per_device_train_batch_size=8, save_steps=10_000, ) # 初始化Trainer对象 trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=val_dataset, ) # 开始训练 trainer.train() ``` 这段代码展示了基于Hugging Face库来进行微调的一般做法,其中包含了创建`Trainer`实例所需的各项要素说明。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值