Qwen3技术报告解读

上个月29号Qwen3开源了一系列模型,

https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

我当时也是熬夜,然后带来了一手实测分享,

今天刷到Qwen3的技术报告放出来了,特此带来解读。

https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

重点在Post-Training部分,慢慢读~

模型架构

Qwen3系列,包括6个Dense模型,分别是Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B和Qwen3-32B;2个MoE模型,分别是Qwen3-30B-A3B和Qwen3-235B-A22B。

Qwen3 Dense模型的架构与Qwen2.5相似,包括GQA、SwiGLU、RoPE以及RMSNorm with pre-normalization。此外,移除了Qwen2中使用的QKV偏置,并在注意力机制中引入了QK-Norm,以确保Qwen3的稳定训练。

Qwen3 MoE模型采用了细粒度专家分割,共有128个专家,激活8个专家。但与Qwen2.5-MoE不同,Qwen3-MoE去除了共享专家。同时,采用了全局批次负载平衡损失。

预训练

预训练数据共36T Tokens,包含119种语言和方言,涉及代码、STEM、推理任务、书籍、合成数据等。

其中,有部分数据是Qwen2.5-VL模型对大量PDF文档进行OCR,再经过Qwen2.5模型进行文本优化,得到的高质量文本数据。

整个预训练分为3个阶段,

  • 通用阶段:在30T Tokens上进行训练,最大长度为4096,这个阶段模型基本完成了对语言能力和一般世界知识的全面训练,训练数据覆盖119种语言。

  • 推理阶段:为了提高模型推理能力,增加STEM、代码、推理和合成数据的比例,在5T Tokens上进行训练,最大长度为4096,同时在这个阶段加速了学习率的衰减。

  • 长上下文阶段:通过高质量的长上下文语料库,以扩展模型的上下文长度,训练最大长度为32768。其中,4096到16384长度数据占比25%,16384到32768长度数据占比75%。与Qwen2.5相同,将RoPE的基础频率从10000增加到1000000,引入YARN和双重块注意力。

结果这里我就截两个了,详细的结果分析,自己看论文吧。

后训练

Qwen3的后训练流程有两个核心目标:

  • 思考控制:融合“非思考”和“思考”两种模式,让用户更灵活地选择模型是否进行推理,并通过指定思考Tokens的预算来控制推理的深度。

  • 强到弱蒸馏:利用大型模型的知识,优化小模型的后训练过程,减少小型模型的计算成本。注意:此处蒸馏,涉及数据蒸馏(离线)和传统的output logits 蒸馏(在线)。

CoT冷启动

CoT冷启动数据集的构建,来自广泛的数学、代码、逻辑推理和一般STEM问题。经过Query和Response两层过滤获得最终数据,

在Query过滤阶段,利用Qwen2.5-72B-Instruct识别并删除不容易验证的query,例如包含多个子问题或常见通用的问题。同时,去除Qwen2.5-72B-Instruct能够直接正确回答,而无需CoT推理的问题。最后还对每个Query进行了领域标注,以保持各领域之间的数据平衡。

在Response过滤阶段,主要利用QwQ-32B对每个问题生成N个候选回答,对于QwQ-32B一直无法生成正确答案的数据,直接进行人工标注。

对于具有正值Pass@N的问题,移除

  • 最终答案不正确的

  • 存在大量重复回答的

  • 明显为猜测而缺乏充分推理的

  • 推理内容与总结内容不一致的

  • 混用语言或风格转变的

  • 可能与潜在验证集过于相似的

获得冷启动数据后,直接SFT,为模型灌输基础的推理模式,为后续RL打下基础。

推理强化学习

推理强化学习采用GRPO更新模型,并且采用大的Batch Size、每个Query多Rollout结果。

对于推理RL阶段的数据3995个,满足:

  • 冷启动阶段未使用过的

  • 对于冷启动模型来说是可学习的

  • 尽可能是具有挑战性的

  • 涵盖广泛的子领域

例如,Qwen3-235B-A22B模型的AIME24分数从70.1增加到85.1,总共进行了170个RL训练步骤。

思考模式融合

主要是将“非思考”能力融合到已经具备思考能力的模型中,允许开发者管理和控制推理行为。

为了实现这一点,对推理强化模型进行持续的SFT,并设计了一个聊天模板来融合这两种模式。同时,还发现如果模型可以熟练切换两种模式,那么也可以在不同思考预算下,保持良好的表现。

SFT数据集是结合了“思考”和“非思考”的数据。为了保证该阶段SFT不影响上一阶段的性能,“思考”数据是用第二阶段模型对第一阶段问题进行拒绝采样生成的。“非思考”数据是精心准备的代码、数学、指令遵循、多语言任务、创意写作、问答和角色扮演等数据

为了更好地融合两种模式,使用户能够动态切换模型的思考过程,Qwen3设计了聊天模板。

引入了/think和/no_think标记,对于非思考模式,返回结果会保留一个空的思考块。

当模型学会在非思考和思考模式之间切换,就可以处理基于不完整的思考生成答案,就可以让模型在思考过程中根据预算来强行停止思考过程。即 当模型的思考长度达到定义的阈值时,插入停止思考指令:“考虑到用户的时间限制,我必须根据目前的思考直接给出解决方案。\n</think>.\n\n”。并让模型继续根据其积累的推理生成最终响应。

通用强化学习

通用强化学习阶段主要是为了增加各种场景中的能力和稳定性,覆盖20多个任务,每个任务都有制定专门的评分标准。

  • 指令遵循:保证模型可以理解和遵循用户指令,包括内容、格式、长度和结构化输出等相关要求

  • 格式遵循:是否能够根据/think和/no_think标记切换思考和非思考模式,并在最终输出中正确使用规定的标记,例如,使用<think>和</think>来分隔思考和回复部分

  • 偏好对齐:对于开放式查询,偏好对齐提高模型的有用性、参与度和风格

  • 代理能力:训练模型通过指定的接口正确调用工具。在RL rollout过程中,允许模型与真实环境执行反馈进行完整的多轮交互,从而提高其在长期决策任务中的性能和稳定性。

  • 特定场景能力:设计了针对特定上下文的任务。例如,在RAG任务中,引入奖励信号来引导模型生成准确且上下文相关的回复,减少模型幻觉。

共涉及3中奖励,基于规则的奖励、基于模型的奖励(带参考答案)和基于模型的奖励(无参考答案)。

强到弱蒸馏

强到弱蒸馏,针对训练小尺寸模型,5个Dense模型(Qwen3-0.6B、1.7B、4B、8B和14B)和一个MoE模型(Qwen3-30B-A3B)。

蒸馏过程分为两个主要阶段:

  • 离线蒸馏策略:将教师模型在/think和/no_think模式下生成的不同的数据,用于学生模型直接SFT训练。有助于学生模型学会基本能力。

  • 在线蒸馏策略:学生模型和教师模型在/think或/no_think模式下对相同的提示内容生成结果,将输出logits进行对齐,最小化KL散度。

结果这里我就截两个了,详细的结果分析,自己看论文吧。

其实思考融合和通用强化学习,对思考模型在推理榜单上,是有一定的负优化作用,但为了保证整体通用性,Qwen3最后还是进行改操作

 一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

二、如何学习大模型 AI ?


🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

 

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

*   大模型 AI 能干什么?
*   大模型是怎样获得「智能」的?
*   用好 AI 的核心心法
*   大模型应用业务架构
*   大模型应用技术架构
*   代码示例:向 GPT-3.5 灌入新知识
*   提示工程的意义和核心思想
*   Prompt 典型构成
*   指令调优方法论
*   思维链和思维树
*   Prompt 攻击和防范
*   …

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

*   为什么要做 RAG
*   搭建一个简单的 ChatPDF
*   检索的基础概念
*   什么是向量表示(Embeddings)
*   向量数据库与向量检索
*   基于向量检索的 RAG
*   搭建 RAG 系统的扩展知识
*   混合检索与 RAG-Fusion 简介
*   向量模型本地部署
*   …

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

*   为什么要做 RAG
*   什么是模型
*   什么是模型训练
*   求解器 & 损失函数简介
*   小实验2:手写一个简单的神经网络并训练它
*   什么是训练/预训练/微调/轻量化微调
*   Transformer结构简介
*   轻量化微调
*   实验数据集的构建
*   …

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

*   硬件选型
*   带你了解全球大模型
*   使用国产大模型服务
*   搭建 OpenAI 代理
*   热身:基于阿里云 PAI 部署 Stable Diffusion
*   在本地计算机运行大模型
*   大模型的私有化部署
*   基于 vLLM 部署大模型
*   案例:如何优雅地在阿里云私有部署开源大模型
*   部署一套开源 LLM 项目
*   内容安全
*   互联网信息服务算法备案
*   …

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

<think>好的,我需要帮助用户了解如何对LLaMA-Factory进行微调以及Qwen源码的解析。首先,用户提到了参考站内的引用,其中引用[2]详细介绍了环境准备和安装步骤。我应该先整理这些信息,确保步骤清晰正确。 接下来,关于微调方法,用户可能想知道具体的操作流程。根据引用[2],微调前需要准备数据集,可能需要配置数据路径。LLaMA-Factory支持多种微调方法,比如LoRA,我需要解释这些方法的基本原理和如何选择参数。同时,启动训练的命令行示例需要准确无误,确保用户能复制使用。 然后是Qwen源码解析部分。用户可能对模型结构、注意力机制和训练流程感兴趣。我需要简要描述Qwen的架构,比如Transformer层和位置编码,并提到其高效的自注意力实现。此外,结合LLaMA-Factory的微调流程,说明如何在现有模型基础上进行适配,比如修改模型配置文件。 最后,生成相关问题时要覆盖微调步骤、配置调整、性能优化和源码结构等方面,帮助用户深入理解。需要确保所有技术术语使用正确,并引用提供的参考资料,比如环境准备和项目官网链接。</think>### LLaMA-Factory 微调方法解析 #### 一、微调流程 1. **数据准备** - 支持JSON格式数据集,需包含"instruction"(任务描述)、"input"(输入数据)、"output"(期望输出)三个字段 - 数据路径配置示例: ```python data_args = dict( dataset_dir="data", template="qwen", task_type="supervised_finetuning" ) ``` 2. **微调方法选择** - **LoRA**:通过低秩矩阵分解实现参数高效微调,适合显存受限场景。核心
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值