推理语言模型:RLMs (OpenAI-o1/o3/o4、DeepSeek-R1以及QwQ系列)的最新发展标志着大型语言模型的一次重大演变。特别,DeepSeek-R1的发布引发了广泛的社会影响,但其并实现细节未完全开源。
MiroMind&复旦&新加坡国立大学等总结了近期的DeepSeek-R1复现研究,主要关注SFT和RLVR这两个主要方向,介绍了当前复现研究在数据构建、方法设计和训练过程中的细节、实验结果的关键发现。
一、监督微调(SFT)
监督微调是通过高质量的数据集来提升推理语言模型(RLMs)的关键方法之一。详细介绍了用于监督微调的数据集,包括数据收集、数据集细节和分析讨论:
1.1 数据收集与整理流程
-
数据来源:数据集通常从数学、科学、编程和谜题等多个领域收集问题,来源包括现有基准测试和网络爬取。
-
数据清洗:通过去重(例如基于嵌入相似性或n-gram)、拒绝采样和验证正确性等多轮过滤来提升数据质量。
-
难度和多样性:在选择过程中,许多数据集强调问题的难度和多样性,使用启发式方法或模型通过率来优先选择更难的问题。
-
验证方法:数学问题通过Math Verify验证,编程问题通过执行或单元测试验证,一般任务通过LLM判断验证。
1.2 现有数据集细节
DeepSeek-R1、OpenThoughts、Open-R1、Light-R1、Bespoke Stratos、AM、Synthetic-1、S1k-1.1、LIMO
1.3 分析与讨论
-
长度分布:不同数据集的CoTs长度分布存在差异,例如AM和Synthetic-1偏向较短序列,而Light-R1和Open-R1则有更长的尾部。
-
数据去重:Light-R1和LIMO明确提到在数据整理过程中进行数据去重,以防止数据泄露。
-
数据来源交叉引用:许多数学推理数据集并非独立创建,而是从现有数据集中收集或衍生而来。例如,多个数据集从NuminaMath获取问题。
1.4 训练与性能比较
-
监督微调形式化:通过最小化负对数似然损失来更新模型参数,使模型最大化参考完成的概率。
-
性能比较:表格展示了不同SFT方法在数学推理基准测试(如AIME24/25和MATH500)上的性能。LIMO和S1k-1.1展示了即使数据集较小,也可以通过精心策划的数据集取得强性能。
-
训练细节:对于长上下文任务(如复杂推理),通常会调整RoPE缩放因子和模型的最大上下文长度。常用的训练超参数包括学习率和批量大小。
二、基于可验证奖励的强化学习(RLVR)
2.1 RL 数据集
数据集主要涵盖数学和编程问题,并确保在训练过程中可以验证模型的输出。
-
数据集统计:表3展示了多个用于RLVR的数据集及其统计信息。这些数据集包括DeepScaleR、Skywork-OR1、Open-Reasoner-Zero等,涵盖了数学、编程和一般推理任务。
-
数据收集与验证:数据集的构建过程通常包括从多个来源收集问题,然后通过严格的验证过程确保数据的正确性和可验证性。例如,Skywork-OR1从数学竞赛和编程平台收集数据,并通过Math-Verify和单元测试验证每个问题的答案。
-
数据清洗与去重:为了确保数据质量,许多数据集在构建过程中进行了严格的清洗和去重操作,以避免数据泄露和重复样本。
2.2 RL 组件
详细讨论了强化学习的关键组件,包括算法设计、奖励系统和采样策略。
2.2.1 算法设计
-
PPO和GRPO:PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)是RLVR中最常用的算法。GRPO通过去除PPO中的批评家模型和GAE计算,提高了效率和内存使用。
-
算法变体:许多研究对PPO和GRPO进行了改进,例如DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization)通过动态采样和去耦剪辑提高了训练稳定性和效率。其他变体包括REINFORCE++、CPPO(Completions Pruning Policy Optimization)和GPG(Group Policy Gradient)。
-
训练目标:这些算法的目标是最大化模型在生成响应时的预期奖励,同时通过KL散度惩罚等方法约束策略的更新,以避免过度偏离初始策略。
2.2.2 奖励设计
-
准确性奖励:这是最基本的奖励类型,通常对正确答案赋予1分,错误答案赋予0分或-1分。
-
格式奖励:鼓励模型生成符合特定格式的响应,例如在数学问题中要求逐步推理。
-
长度奖励:通过奖励或惩罚响应的长度来控制模型的输出长度,例如对过长的响应施加线性惩罚。
2.2.3 采样策略
-
课程学习:通过逐步增加任务难度来提高模型的训练效率。例如,Open-Reasoner-Zero在训练过程中逐步引入更具挑战性的样本。
-
拒绝采样:通过过滤掉不正确的样本或低质量的响应来提高训练效率。例如,DAPO和Skywork-OR1通过动态采样策略过滤掉零优势样本组。
-
历史重采样:通过重新采样上一轮训练中未正确预测的样本,集中训练模型的弱点。
2.3 分析与讨论
总结了基于可验证奖励的强化学习在训练推理语言模型时的关键发现:
2.3.1 训练数据配方
-
数据量和多样性:大量多样化的数据对于训练有效的推理模型至关重要。例如,Skywork-OR1和Seed-Thinking-v1.5等项目通过从多个领域收集数据来提高模型的泛化能力。
-
数据难度:选择难度适中的数据对于模型训练至关重要。例如,Light-R1和Skywork-OR1通过筛选出模型通过率适中的样本,确保模型在训练过程中能够学习到有价值的推理过程。
-
数据清洗:严格的数据清洗过程可以减少噪声,提高模型的训练效率。例如,BigMath和DAPO通过去除不可验证的问题和错误答案,确保数据集的质量。
2.3.2 RL 算法设计
-
算法选择:PPO、GRPO及其变体在训练推理语言模型时表现出不同的性能。例如,Open-Reasoner-Zero发现PPO在某些情况下比GRPO更稳定。
-
算法改进:许多研究对现有算法进行了改进,以提高训练效率和稳定性。例如,DAPO通过动态采样和去耦剪辑提高了训练过程的稳定性。
2.3.3 模型大小和类型
-
模型大小:从1.5B到32B的模型在RLVR训练中均表现出良好的性能。例如,DeepScaleR通过扩展1.5B模型的RL训练,超越了OpenAI的o1-preview模型。
-
模型类型:RLVR不仅适用于基础模型,还适用于经过蒸馏的长推理链模型(如R1-distilled模型)。
2.3.4 上下文长度
-
最大响应长度:允许的响应长度对模型的推理能力有重要影响。例如,Light-R1将最大响应长度设置为24k,而Skywork-OR1则逐步增加最大响应长度至32k。
-
课程学习:通过逐步增加最大响应长度,可以提高模型在长推理任务中的性能。
2.3.5 奖励建模
-
准确性奖励:简单的准确性奖励通常是最有效的,但其他类型的奖励(如格式奖励和长度奖励)也可以在某些情况下提高模型性能。
-
奖励设计:奖励设计需要在准确性和多样性之间取得平衡,以避免奖励黑客攻击和过拟合。
2.3.6 KL 损失
-
KL损失的作用:KL损失用于约束在线策略与参考策略之间的差异,但某些研究发现,在大规模RL训练中,KL损失可能不是必需的,甚至可能限制响应长度的增加。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】