Unsloth新增支持Qwen3微调｜速度提升2 倍，显存减少70%，最高支持128K长上下文

大模型入门学习

于 2025-05-04 17:50:45 发布

阅读量1k

点赞数 25

文章标签：人工智能大模型 AI 程序员 Qwen3 大模型微调 AI大模型

本文链接：https://blog.csdn.net/2401_84494441/article/details/147701891

版权

近日，#Unsloth 新增支持 #Qwen3 系列大模型的微调与部署。

这次更新不仅大幅优化了性能表现，还降低了显存门槛，让 Qwen3 模型的使用更加高效、轻量。

以下是本次更新的核心亮点：

✅ 微调速度提升约 2 倍
✅ 显存使用减少约 70%
✅ 最长上下文支持扩展至 128K
✅ Qwen3-30B-A3B 模型仅需 17.5GB 显存
✅ 免费 Colab Notebook 即刻上手微调 Qwen3-14B
✅ 已支持全参数微调、预训练和部署

此外，Unsloth 还上线了支持部署的 4-bit 动态量化 safetensors 模型，并适配了包括 Mixtral、MoEs、Cohere 等主流模型架构。

怎么用？Qwen3 微调快速指南

第一步：安装或更新 Unsloth

直接使用 pip 命令安装最新版 Unsloth：

pip install --upgrade --force-reinstall --no-deps unsloth unsloth_zoo

第二步：选择模型（支持 4bit 量化）

以下是官方已发布的 Qwen3 模型与推理时显存需求：

模型名称	显存需求（约）
Qwen3-14B	≈ 13 GB
Qwen3-30B-A3B (MoE)	≈ 17.5 GB
Qwen3-235B-A22B	> 48 GB

其中，Qwen3-30B-A3B 是稀疏 MoE 模型，默认禁用了 Router 层的微调，提高了稳定性。

第三步：加载模型

以 30B 模型为例，代码如下：

from unsloth import FastModel

model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B",
    max_seq_length = 2048,
    load_in_4bit = True,
    full_finetuning = False,  # 若需要全参数微调可设为 True
)

第四步：准备训练数据

支持两种数据类型：

普通问答：

{"question": "2+2 等于多少？", "answer": "4"}

链式推理（推荐保留 Qwen3 推理能力）：

{"question": "10 是不是质数？", "answer": "不是，因为 10 除以 2 等于 5。"}

如果训练数据完全不包含推理信息，模型在微调后可能会失去原有推理能力。

第五步：使用 Colab 免费微调 Qwen3-14B

官方提供了开箱即用的 Notebook，支持在线微调：

地址如下Qwen3-14B 微调（含推理数据）：https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_%2814B%29-Reasoning-Conversational.ipynb

该数据集融合了NVIDIA 开源的 open-math-reasoning 数据；Maxime 提供的 FineTome 高质量问答数据

第六步：保存与部署

微调完成后，Unsloth 支持将模型导出为：GGUF 格式（适用于 llama.cpp / Ollama 等推理引擎）；Safetensors（4-bit 量化）（适用于 Hugging Face 等平台）。

官方模型仓库地址：https://huggingface.co/unsloth

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。