Unsloth新增支持Qwen3微调|速度提升2 倍,显存减少70%,最高支持128K长上下文

近日,#Unsloth 新增支持 #Qwen3 系列大模型的微调与部署。

这次更新不仅大幅优化了性能表现,还降低了显存门槛,让 Qwen3 模型的使用更加高效、轻量。

以下是本次更新的核心亮点:

✅ 微调速度提升约 2 倍
✅ 显存使用减少约 70%
✅ 最长上下文支持扩展至 128K
✅ Qwen3-30B-A3B 模型仅需 17.5GB 显存
✅ 免费 Colab Notebook 即刻上手微调 Qwen3-14B
✅ 已支持全参数微调、预训练和部署

此外,Unsloth 还上线了支持部署的 4-bit 动态量化 safetensors 模型,并适配了包括 Mixtral、MoEs、Cohere 等主流模型架构。

怎么用?Qwen3 微调快速指南

第一步:安装或更新 Unsloth

直接使用 pip 命令安装最新版 Unsloth:

pip install --upgrade --force-reinstall --no-deps unsloth unsloth_zoo

第二步:选择模型(支持 4bit 量化)

以下是官方已发布的 Qwen3 模型与推理时显存需求:

模型名称

显存需求(约)

Qwen3-14B

≈ 13 GB

Qwen3-30B-A3B (MoE)

≈ 17.5 GB

Qwen3-235B-A22B

> 48 GB

其中,Qwen3-30B-A3B 是稀疏 MoE 模型,默认禁用了 Router 层的微调,提高了稳定性。

第三步:加载模型

以 30B 模型为例,代码如下:

from unsloth import FastModel

model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B",
    max_seq_length = 2048,
    load_in_4bit = True,
    full_finetuning = False,  # 若需要全参数微调可设为 True
)

第四步:准备训练数据

支持两种数据类型:

普通问答:

{"question": "2+2 等于多少?", "answer": "4"}

链式推理(推荐保留 Qwen3 推理能力):

{"question": "10 是不是质数?", "answer": "不是,因为 10 除以 2 等于 5。"}

如果训练数据完全不包含推理信息,模型在微调后可能会失去原有推理能力。

第五步:使用 Colab 免费微调 Qwen3-14B

官方提供了开箱即用的 Notebook,支持在线微调:

地址如下Qwen3-14B 微调(含推理数据):https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_%2814B%29-Reasoning-Conversational.ipynb

该数据集融合了NVIDIA 开源的 open-math-reasoning 数据;Maxime 提供的 FineTome 高质量问答数据

第六步:保存与部署

微调完成后,Unsloth 支持将模型导出为:GGUF 格式(适用于 llama.cpp / Ollama 等推理引擎);Safetensors(4-bit 量化)(适用于 Hugging Face 等平台)。

官方模型仓库地址:https://huggingface.co/unsloth

图片

 

 如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值