关于“DeepScaleR：通过扩展强化学习，用1.5B模型超越O1-Preview”（译文）阅读报告-CSDN博客

本文链接：https://blog.csdn.net/ViniJack/article/details/145773731

引言

今天我们要解读的是一篇非常有意思的文章，主题是“DeepScaleR：通过扩展强化学习，用1.5B模型超越O1-Preview”。这名字听起来有点拗口，别担心，我们一步步来拆解。

原文

这里先放上中文译文，如有兴趣阅读原文的朋友可以访问URL：

https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2

DeepScaleR：通过扩展强化学习，用1.5B模型超越O1-Preview

作者： Michael Luo*, Sijun Tan*, Justin Wong†, Xiaoxiang Shi, William Tang, Manan Roongta, Colin Cai, Jeffrey Luo

顾问： Tianjun Zhang*, Li Erran Li, Raluca Ada Popa, Ion Stoica

（*：项目负责人；†：重要贡献者）

✨ 摘要（TL;DR）

强化学习的魔力正在显现！我们隆重推出DeepScaleR-1.5B-Preview，这是一个通过简单的强化学习（RL）从Deepseek-R1-Distilled-Qwen-1.5B微调而来的语言模型。它在AIME2024测试中取得了令人瞩目的43.1%的Pass@1准确率（比基础模型提高了14.3%），仅用15亿参数就超越了OpenAI的o1-preview模型的性能。我们开源了数据集、代码和训练日志，以便每个人都可以通过强化学习来提升智能水平。

🌐 资源链接

网站： https://agentica-project.com/
Github代码库： https://github.com/agentica-project/deepscaler
Hugging Face模型： https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
Hugging Face数据集： https://huggingface.co/datasets/agentica-org/DeepScaleR-Preview-Dataset
Weights & Biases训练日志： https://wandb.ai/mluo/deepscaler-1.5b
评估日志： https://drive.google.com/file/d/1V_rYKoL35WmubbmWN6PeFg4zo5QOug8X/view?usp=sharing
DeepScaleR-1.5B-Preview模型性能

模型	AIME 2024	MATH 500	AMC 2023	Minerva Math	Olympiad Bench	平均值
DeepScaleR-1.5B-Preview	43.1	87.8	73.6	30.2	50.0	57.0
DeepSeek-R1-Distill-Qwen-1.5B	28.8	82.8	62.9	26.5	43.3	48.9
O1-Preview	40.0	81.4	-	-	-	-
图1：DeepScaleR在AIME2024上的Pass@1准确率随训练进程的变化。在第1040步和第1520步，上下文长度分别扩展到16K和24K。

在这篇博客中，我们将逐步揭示如何利用强化学习将一个小型模型转变为强大的推理模型。我们推出的DeepScaleR-1.5B-Preview模型，通过4万个高质量数学问题进行训练，耗费了3800个A100 GPU小时（约4500美元），在多个竞赛级数学基准测试中超越了OpenAI的o1-preview模型。

引言：迈向强化学习在大语言模型中的普及化

最近开源的Deepseek-R1模型（一个可与OpenAI的o1模型相媲美的模型）标志着推理模型普及化的重大进步。然而，其确切的训练配方、超参数和底层系统仍然不为人知。在这项工作中，我们朝着完全开源的、可扩展强化学习推理模型的配方迈出了重要一步。

扩展强化学习的最大挑战之一是高昂的计算成本。例如，我们发现直接复现DeepSeek-R1的实验（≥32K上下文，约8000步）至少需要70,000个A100 GPU小时——即使对于1.5B模型也是如此。为了解决这个问题，我们利用了一个蒸馏模型，并引入了一种新颖的迭代式长度扩展方案进行强化学习，将计算需求降低到仅3800个A100 GPU小时——减少了18.42倍——同时实现了超越OpenAI的o1-preview模型的性能，而模型大小仅为1.5B。

我们的工作表明，通过强化学习开发定制的推理模型可以是可扩展的，并且具有成本效益。在接下来的博客文章中，我们将介绍我们的数据集整理和训练方法，展示评估结果，并分享我们从研究中获得的关键见解。

DeepScaleR的秘诀

1. 数据集整理

我们的训练数据集包括1984-2023年的AIME问题、2023年之前的AMC问题，以及来自Omni-MATH和Still数据集的问题，这些问题来自各种国家和国际数学竞赛。

我们的数据处理流程包括三个关键步骤：

提取答案： 对于AMC和AIME等数据集，我们使用gemini-1.5-pro-002从AoPS官方解答中提取答案。
去除重复问题： 我们使用RAG技术，结合sentence-transformers/all-MiniLM-L6-v2模型的嵌入，来消除重复的问题。为了防止数据污染，我们还检查了训练集和测试集之间是否存在重叠。
过滤无法评分的问题： 某些数据集（如Omni-MATH）包含一些无法使用Sympy进行评估、需要LLM（大语言模型）进行判定的问题。由于使用LLM判定可能会减慢训练速度并引入嘈杂的奖励信号，我们增加了一个额外的过滤步骤来删除这些无法评分的问题。
经过重复数据删除和过滤，我们最终的训练数据集包含大约40,000个独特的问题-答案对。我们将在未来的运行中扩展我们的数据集。

2. 奖励函数

正如Deepseek-R1所倡导的，我们采用结果奖励模型（ORM）而不是过程奖励模型（PRM）来避免奖励机制被“钻空子”。总而言之，我们的奖励函数返回：

1 - 如果LLM的答案通过了基本的LaTeX/Sympy检查。
0 - 如果LLM的答案不正确或格式不正确（例如，缺少<think>、</think>分隔符）。
3. 迭代式上下文长度扩展：先短后长

图2：DeepScaleR的平均响应长度和训练奖励随训练进程的变化。曲线显示了窗口大小为100的运行平均值。

扩展强化学习进行推理任务的一个关键挑战是选择最佳的训练上下文窗口。推理工作负载的计算密集度很高，因为它们生成的输出比标准任务长得多，这会减慢轨迹采样和策略梯度更新的速度。将上下文窗口大小加倍会使训练计算量增加至少2倍。

这就引入了一个基本的权衡：更长的上下文为模型提供了更多的思考空间，但会显著降低训练速度；而较短的上下文可以加速训练，但可能会限制模型解决需要较长上下文的更难问题的能力。因此，在效率和准确性之间取得适当的平衡至关重要。

总而言之，我们的训练方案采用了Deepseek的GRPO算法，包括以下两个步骤：

首先，我们使用最大8K上下文进行强化学习训练，以实现更有效的推理和高效的训练。
接下来，我们将训练扩展到16K和24K上下文，以便模型可以解决更具挑战性的、以前未解决的问题。
3.1 用8K上下文引导有效的思维链（CoT）

在启动我们的完整训练运行之前，我们评估了Deepseek-R1-Distilled-Qwen-1.5B在AIME2024上的表现，并分析了轨迹统计数据。平均而言，不正确的回答包含的token数量是正确回答的三倍（20,346 vs. 6,395）。这表明，较长的回答通常会导致不正确的结果。因此，立即使用长上下文窗口进行训练可能效率低下，因为大多数token实际上都被浪费了。此外，我们在评估日志中观察到，冗长的回答表现出重复的模式，表明它们对有效的思维链（CoT）推理没有实质性贡献。

鉴于这一见解，我们以8K上下文启动训练，实现了22.9%的初始AIME2024准确率——仅比原始模型低6%。这一策略被证明是有效的：在训练过程中，平均训练奖励从46%增加到58%，而平均响应长度从5500个token下降到3500个token（见图2）。

基础模型	DeepScaleR-1.5b-8k	变化
AIME Pass@1	28.9%	33.9%	+5%
正确回答的平均token数	6396.0	3661.2	-2734.8
不正确回答的平均token数	20346.3	6976.8	-13369.5
总平均token数	16335.6	5850.9	−10484.7
更重要的是，将输出限制在8K token内，使得模型更有效地利用上下文。如表所示，我们的模型为正确和不正确的答案生成的响应都显著缩短，同时仅用三分之一的token就将AIME准确率提高了5%。

3.2 在转折点扩展到16K上下文

在大约1000步之后，我们的8K运行出现了一个有趣的转变：响应长度再次开始增加。然而，这导致了收益递减——准确率趋于平稳并最终下降。与此同时，响应截断率从4.2%上升到6.5%，表明更多的响应在上下文限制处被截断。

图3：在8K运行中，响应长度在1000步后回升，但训练奖励最终下降。

图4：在8K上下文运行中，响应长度截断率在1000步后上升。

这些结果表明，模型试图通过“更长时间地思考”来提高训练奖励。然而，随着它生成更长的响应，它越来越多地遇到8K上下文窗口的上限，从而限制了进一步的改进。

认识到这是一个自然的过渡点，我们决定“放飞笼中鸟”。我们采用了第1040步的检查点——响应长度开始呈上升趋势——并重新启动了16K上下文窗口的训练。这种两阶段方法比从一开始就以16K进行训练要高效得多：8K引导将平均响应长度保持在3000个token，而不是9000个token，使得这一阶段的训练速度至少提高了2倍。

在这次切换之后，我们观察到训练奖励、响应长度和AIME准确率都有了稳步提高。在额外的500步之后，平均响应长度从3500个token增加到5500个token，AIME2024 Pass@1准确率达到38%。

3.3 用24K魔法超越O1-preview✨

在16K上下文中额外训练500步后，我们注意到性能开始趋于平稳——平均训练奖励收敛于62.5%，AIME Pass@1准确率徘徊在38%左右，响应长度再次开始下降。与此同时，最大响应截断率上升到2%。

为了最终实现O1级别的性能，我们决定释放24K魔法——将上下文窗口增加到24K。我们采用了16K运行的第480步检查点，并重新启动了24K上下文窗口的训练运行。

随着上下文窗口的扩展，模型终于获得了自由。大约50步后，我们的模型最终超过了40%的AIME准确率，并在第200步最终达到43%。24K魔法完全生效！

24k magic in the air 🔮 —Bruno Mars (24K魔法弥漫空中)
总的来说，我们的训练运行包括约1750步。最初的8K阶段在8个A100 GPU上训练，而16K和24K阶段将训练扩展到32个A100 GPU。总共，训练花费了大约3800个A100小时，相当于在32个A100上运行大约5天，计算成本约为4500美元。

评估

我们在竞赛级数学基准测试上评估我们的模型，包括AIME 2024、AMC 2023、MATH-500、Minerva Math和OlympiadBench。下面报告的是Pass@1准确率，每个问题取16个样本的平均值。我们用来验证分数的基线模型以下划线标出。

模型	AIME 2024	MATH 500	AMC 2023	Minerva Math	OlympiadBench	平均值
Qwen-2.5-Math-7B-Instruct	13.3	79.8	50.6	34.6	40.7	43.8
rStar-Math-7B	26.7	78.4	47.5	-	47.1	-
Eurus-2-7B-PRIME	26.7	79.2	57.8	38.6	42.1	48.9
Qwen2.5-7B-SimpleRL	26.7	82.4	62.5	39.7	43.3	50.9
DeepSeek-R1-Distill-Qwen-1.5B	28.8	82.8	62.9	26.5	43.3	48.9
Still-1.5B	32.5	84.4	66.7	29.0	45.4	51.6
DeepScaleR-1.5B-Preview	43.1	87.8	73.6	30.2	50.0	57.0
O1-Preview	40.0	81.4	-	-	-	-
我们将DeepScaleR与我们使用的基础DeepSeek模型以及最近探索强化学习用于推理任务的学术工作进行了比较。DeepScaleR在所有基准测试中都显著优于基础模型，在AIME2024上实现了14.4%的绝对提升，总体提高了8.1%。此外，DeepScaleR超越了最近的学术工作，如rSTAR、Prime和SimpleRL，这些工作是从7B模型微调而来的。如图5所示，DeepScaleR仅用1.5B参数就实现了O1-preview级别的性能——效率显著提高。

图5：AIME准确率与模型大小的关系 - DeepScaleR实现了性能和大小的最佳帕累托效率组合。

关键要点

强化学习的扩展效应也可以在小型模型中体现。 Deepseek-R1表明，直接在小型模型上应用强化学习不如蒸馏有效。他们的消融实验表明，在Qwen-32B上进行强化学习在AIME上达到47%，而仅蒸馏就达到72.6%。一个常见的误解是，强化学习的扩展效应只对大型模型有益。然而，通过从大型模型中蒸馏出高质量的SFT（监督微调）数据，小型模型也可以通过强化学习更有效地学习推理。我们的结果证实了这一点：强化学习将AIME准确率从28.9%提高到43.1%！这些发现表明，仅靠SFT或强化学习是不够的。相反，通过将高质量的SFT蒸馏与强化学习扩展相结合，我们可以真正释放LLM的推理潜力。
迭代式长度扩展可以实现更有效的长度扩展。 先前的工作[1, 2]表明，直接在16K上下文上训练强化学习并不能比8K带来显著的改进，这可能是因为模型没有足够的计算资源来充分利用扩展的上下文。最近的一项工作[3]表明，较长的响应长度包含冗余的自我反思，导致不正确的结果。我们的实验与这些发现一致。通过首先在较短的上下文（8K）中优化推理，我们可以在后续的16K和24K运行中实现更快、更有效的训练。这种迭代方法在扩展到更长的上下文之前，使模型建立在有效的思维模式基础上，使基于强化学习的长度扩展更有效率。
结论

我们的工作旨在揭示强化学习对LLM的扩展效应，并使其为每个人所用。DeepScaleR-1.5B-Preview是我们朝着这一目标努力的第一个模型，以43.1%的Pass@1准确率超越了o1-preview。我们坚信，普及强化学习的扩展效应是一项社区工作，欢迎开源贡献/赞助！让我们共同努力，拓展强化学习在LLM推理中的前沿！

引用

@misc{deepscaler2025,
  title={DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL},
  author={Michael Luo and Sijun Tan and Justin Wong and Xiaoxiang Shi and William Y. Tang and Manan Roongta and Colin Cai and Jeffrey Luo and Tianjun Zhang and Li Erran Li and Raluca Ada Popa and Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2}},
  note={Notion Blog},
  year={2025}
}
content_copy download
Use code with caution.

解读

1. 主题拆解，化繁为简

这篇文章讲的是什么呢？咱们先来提炼几个关键词：

DeepScaleR: 这是文章提出的一个语言模型。
1.5B: 指的是这个模型的参数量为15亿。
O1-Preview: 这是OpenAI的一个语言模型，可以理解为一个“学霸”级别的存在。
强化学习（RL）: 这是一种机器学习方法，类似于训练小狗，做对了给奖励，做错了给惩罚，让模型不断进步。
Scaling RL: 指的是扩大强化学习的应用规模，让它能处理更复杂的问题。

所以，这篇文章的主旨就是：作者们提出了一个名为DeepScaleR的语言模型，它只有15亿参数，却通过强化学习的方法，在数学推理能力上超越了OpenAI的“学霸”模型O1-Preview。

是不是一下子清晰多了？就像我们剥洋葱一样，把复杂的问题一层层剥开，核心内容就显现出来了。

2. 知识关联，构建体系

为了更好地理解这篇文章，我们需要补充一些背景知识：

语言模型（Language Model）： 简单来说，就是一种能够理解和生成人类语言的AI模型。你可以和它聊天，让它写文章，甚至让它做数学题。
参数量： 可以理解为模型内部的“神经元”数量。一般来说，参数量越大，模型越复杂，能力也越强。但参数量大的模型也需要更多的计算资源来训练和运行。
强化学习（Reinforcement Learning, RL）： 想象一下训练小狗的过程。你给小狗一个指令（比如“坐下”），如果它做对了，你就给它一块肉骨头作为奖励；如果它做错了，你就不给奖励。小狗会逐渐学会听从你的指令。强化学习也是类似的，它让AI模型在一个环境中不断尝试，根据结果的好坏给予奖励或惩罚，从而让模型学会做出最佳决策。
AIME、MATH 500、AMC 2023、Minerva Math、Olympiad Bench: 这些都是数学竞赛或数据集，用来测试模型的数学推理能力。

3. 循序渐进，由浅入深

现在，让我们一步步深入了解DeepScaleR的奥秘：

3.1 为什么要做这件事？

挑战“学霸”： OpenAI的O1-Preview模型很厉害，但DeepScaleR的作者们想证明，即使是参数量较小的模型，通过强化学习也能达到甚至超越“学霸”的水平。
降低成本： 训练大模型非常耗费资源，就像烧钱一样。DeepScaleR的作者们希望找到一种更经济、更高效的方法来训练强大的推理模型。

3.2 DeepScaleR是怎么做的？

站在巨人的肩膀上： DeepScaleR并不是从零开始的，它是基于Deepseek-R1-Distilled-Qwen-1.5B模型进行微调的。这就好比你已经学会了基本的数学知识，现在要进一步学习奥数。
数据集的秘密： 作者们精心挑选了大约4万个高质量的数学问题，包括AIME、AMC、Omni-MATH和Still等数据集中的题目。他们还用了一些技巧来处理这些数据，比如：
- 用Gemini-1.5-pro-002模型从官方解答中提取答案。
- 用RAG技术去除重复的问题。
- 过滤掉那些无法用Sympy自动评分的问题。
奖励机制： DeepScaleR采用了Outcome Reward Model (ORM) 作为奖励函数：
- 如果模型的答案正确，而且格式规范，就给1分。
- 如果答案错误或者格式不对，就给0分。
迭代式上下文扩展（Iterative Context Lengthening）： 这是DeepScaleR的一大创新点。作者们发现，直接用很长的上下文（比如32K）来训练模型，效率很低，而且容易浪费计算资源。他们采用了分阶段训练的方法：
- 第一阶段： 用8K的上下文进行训练，让模型学会更有效地利用上下文信息。
- 第二阶段： 当模型的推理能力遇到瓶颈时，将上下文扩展到16K。
- 第三阶段： 为了进一步提升性能，将上下文扩展到24K。

这种方法就像我们学习一样，先打好基础，再逐步挑战更难的问题。

3.3 DeepScaleR的效果如何？

文章用一张表格展示了DeepScaleR在多个数学竞赛和数据集上的表现：

Model	AIME 2024	MATH 500	AMC 2023	Minerva Math	Olympiad Bench	Avg.
DeepScaleR-1.5B-Preview	43.1	87.8	73.6	30.2	50.0	57.0
DeepSeek-R1-Distill-Qwen-1.5B	28.8	82.8	62.9	26.5	43.3	48.9
O1-Preview	40.0	81.4	-	-	-	-

可以看出，DeepScaleR在所有测试中都明显优于基础模型DeepSeek-R1-Distill-Qwen-1.5B，而且在AIME 2024上，它的Pass@1准确率（43.1%）超过了O1-Preview（40.0%）。

4. 文风生动，引人入胜

这篇文章的作者们文笔很不错，用了很多生动的比喻和例子，让复杂的概念变得更容易理解。比如：

把强化学习比作训练小狗。
把迭代式上下文扩展比作“先关在笼子里，再放飞小鸟”。
引用Bruno Mars的歌曲《24K Magic》来形容24K上下文带来的神奇效果。

5. 图文并茂，代码说话

文章中还配了几张图，帮助我们更好地理解训练过程：

图1： 展示了DeepScaleR在AIME2024上的Pass@1准确率随着训练的进行而不断提高。
图2： 展示了DeepScaleR的平均回答长度和训练奖励的变化情况。
图3和图4： 展示了8K上下文训练过程中，回答长度和截断比例的变化情况。

文章中没有直接提供代码，但是提供了模型、数据集、训练日志和评估日志的链接，方便感兴趣的同学进一步研究。

DeepScaleR这项工作证明了，即使是参数量较小的模型，通过精心设计的强化学习方法，也能在特定任务上取得出色的表现。这为我们打开了一扇新的大门，让我们看到了更高效、更经济的AI模型训练方法。

延伸解读。

延伸解读方向：

DeepScaleR的局限性： 虽然DeepScaleR很厉害，但它是不是完美的呢？有没有什么不足之处？
DeepScaleR的潜在应用： 除了做数学题，DeepScaleR还能用来做什么？
DeepScaleR对我们的启发： 从DeepScaleR的研究中，我们可以学到什么？对未来的AI研究有什么启示？
与其他方法的对比： 除了DeepScaleR使用的GRPO算法，还有哪些强化学习算法可以用于语言模型训练？它们各自有什么优缺点？
复现DeepScaleR： 如果我们想自己动手复现DeepScaleR，需要做哪些准备？有哪些坑需要注意？

详细解读：

1. DeepScaleR的局限性

领域局限性： DeepScaleR主要针对数学推理任务进行了优化，它在其他类型的任务（比如文本摘要、情感分析等）上表现如何，还需要进一步验证。
数据依赖性： DeepScaleR的成功很大程度上依赖于高质量的训练数据。如果训练数据质量不高，或者数据量不足，模型的性能可能会受到影响。
可解释性： 强化学习模型通常被认为是“黑盒子”，我们很难理解模型做出决策的具体原因。这在某些需要高可解释性的应用场景下可能会成为问题。
泛化能力： 虽然DeepScaleR在多个数学竞赛数据集上表现出色，但它在面对真实世界中更复杂、更多样的数学问题时，能否保持同样的性能，还有待观察。

2. DeepScaleR的潜在应用

教育领域： DeepScaleR可以作为智能辅导系统，帮助学生解答数学难题，提供个性化的学习指导。
科研领域： DeepScaleR可以辅助科研人员进行数学公式推导、定理证明等工作，加速科研进程。
金融领域： DeepScaleR可以用于金融建模、风险评估等需要复杂数学计算的场景。
其他需要推理能力的领域： 任何需要逻辑推理、问题解决的任务，都有可能受益于DeepScaleR的技术。

3. DeepScaleR对我们的启发

小模型也有大潜力： DeepScaleR证明了，即使是参数量较小的模型，通过巧妙的训练方法，也能取得出色的性能。这启示我们，不要一味追求大模型，要注重模型的效率和优化。
强化学习的重要性： DeepScaleR的成功凸显了强化学习在提升模型推理能力方面的巨大潜力。未来，我们可以期待更多基于强化学习的AI模型在各个领域大放异彩。
迭代式学习的价值： DeepScaleR采用的迭代式上下文扩展策略，为我们提供了一种新的训练思路。这种分阶段、逐步提升的方法，可以帮助模型更高效地学习。
开源精神： DeepScaleR的作者们公开了数据集、代码和训练日志，这种开放、共享的精神值得我们学习。

4. 与其他方法的对比

DeepScaleR使用了Deepseek提出的GRPO（Generalized Proximal Policy Optimization）算法。除了GRPO，还有一些其他的强化学习算法也可以用于语言模型训练，比如：

PPO (Proximal Policy Optimization): PPO是OpenAI提出的一种经典的强化学习算法，它通过限制策略更新的幅度来保证训练的稳定性。
A2C (Advantage Actor-Critic): A2C是一种基于Actor-Critic框架的算法，它同时训练一个策略网络（Actor）和一个价值网络（Critic），通过价值网络来评估策略的好坏。
DPO (Direct Preference Optimization): DPO是一种直接优化偏好的方法。不训练奖励模型，而是直接让人类标注者对模型的不同输出进行排序，然后用这些排序数据来训练模型。
RRHF (Rank Responses to Align Language Models with Human Feedback): RRHF也是一种基于排序数据的方法，它更进一步，让人类标注者对模型的多个输出进行排序。

这些算法各有优缺点：

算法	优点	缺点
PPO	稳定、易于实现、在许多任务上表现良好	对超参数敏感、可能收敛到局部最优
A2C	可以处理连续动作空间、比PPO更高效	训练不稳定、可能需要较长时间才能收敛
DPO	简单、直接、不需要训练奖励模型	数据标注成本高、可能受到人类标注者偏见的影响
RRHF	更充分地利用人类反馈信息	数据标注成本更高、模型训练更复杂
GRPO	相对较新，DeepScaleR文章中表示其效果好。	需要更多案例来验证其效果，可能存在调参难度。

5. 复现DeepScaleR

如果我们想自己动手复现DeepScaleR，需要做以下准备：

硬件： 至少需要一块A100 GPU，如果想达到文章中的训练规模，最好有32块A100 GPU。
软件： 需要安装Python、PyTorch、Transformers等库。
数据： 需要下载DeepScaleR的作者们提供的数据集，或者自己准备类似的高质量数学问题数据集。
代码： 可以参考DeepScaleR的作者们提供的Github仓库中的代码。
耐心和毅力： 训练强化学习模型需要花费大量的时间和精力，需要不断尝试、调参，才能取得好的效果。

需要注意的坑：

环境配置： 确保你的环境配置正确，各种库的版本兼容。
超参数调整： 强化学习模型对超参数非常敏感，需要仔细调整学习率、批大小、上下文长度等参数。
评估指标： 要选择合适的评估指标来衡量模型的性能，比如Pass@1准确率。
过拟合： 要注意防止模型在训练集上过拟合，可以采用一些正则化方法，比如dropout、权重衰减等。

思考

再进一步思考，聚焦于DeepScaleR在小模型推理以及垂直领域二次训练这两个应用场景上的潜力与挑战。

1. 小模型推理

优势：
- 部署成本低： 小模型（如DeepScaleR的1.5B参数）相比于动辄数百亿、数千亿参数的大模型，对计算资源的要求大大降低。这意味着可以将它们部署在边缘设备（如手机、嵌入式设备）上，或者在云端使用更便宜的计算实例，从而降低部署成本。
- 推理速度快： 参数量小，计算量也小，因此推理速度更快，响应时间更短。这对于实时性要求高的应用场景（如自动驾驶、实时翻译）非常重要。
- 能耗低： 小模型推理所需的能耗更低，更环保，也更适合电池供电的设备。
DeepScaleR的启示：
- DeepScaleR证明了小模型通过精细的训练（特别是强化学习），也能在特定任务上达到甚至超越大模型的性能。这为小模型推理应用提供了信心。
- DeepScaleR的迭代式上下文扩展策略，提示我们在小模型推理时，可以根据任务的复杂度和计算资源的限制，灵活调整上下文长度，以达到最佳的性能和效率平衡。
挑战：
- 通用性： 小模型通常在通用性上不如大模型。它们可能在特定任务上表现出色，但在其他任务上表现不佳。
- 知识容量： 小模型的参数量有限，可能无法存储和处理大量的知识。这可能会限制它们在需要广泛知识的任务上的表现。
未来方向：
- 模型压缩： 可以进一步研究模型压缩技术（如剪枝、量化、知识蒸馏），在保持性能的同时，进一步减小模型的大小。
- 高效算法： 可以探索更高效的推理算法，例如稀疏注意力机制、动态计算图等，以加速小模型的推理过程。

2. 垂直领域二次训练

优势：
- 定制化： 垂直领域（如医疗、金融、法律）通常有独特的数据和任务需求。通过在通用预训练模型（如DeepScaleR的基础模型）上进行二次训练，可以快速定制出适应特定领域需求的模型。
- 数据效率： 相比于从零开始训练一个模型，二次训练通常只需要较少的领域数据就能达到较好的效果。
- 性能提升： 二次训练可以使模型更好地适应领域数据的特点，从而提升模型在特定任务上的性能。
DeepScaleR的启示：
- DeepScaleR本身就是一个二次训练的例子（在Deepseek-R1-Distilled-Qwen-1.5B基础上进行强化学习微调）。这表明，即使是相对较小的模型，通过二次训练也能获得显著的性能提升。
- DeepScaleR的数据处理和奖励函数设计方法，可以为其他领域的二次训练提供参考。
挑战：
- 领域数据获取： 高质量的领域数据通常难以获取，而且可能涉及隐私和安全问题。
- 领域知识融合： 如何将领域知识有效地融入到模型中，是一个挑战。
- 灾难性遗忘： 二次训练可能会导致模型遗忘之前学到的通用知识。
未来方向：
- 数据增强： 可以研究各种数据增强技术，以扩充领域数据集，提高模型的泛化能力。
- 知识注入： 可以探索将领域知识图谱、规则等外部知识融入到模型中的方法。
- 持续学习： 可以研究持续学习方法，使模型能够在不断学习新领域知识的同时，保留原有的通用能力。
- Few-shot/Zero-shot Learning: 探索如何利用少量标注数据，甚至零标注数据进行垂直领域模型的训练，以进一步降低对标注数据的依赖。

DeepScaleR的研究为小模型推理和垂直领域二次训练带来了新的思路和希望。它表明，通过精细的训练方法和策略，小模型也能在特定任务上展现出强大的能力。未来，我们需要进一步探索如何克服小模型在通用性、知识容量等方面的局限性，以及如何更有效地进行垂直领域模型的二次训练，以充分发挥小模型的潜力，推动AI技术的普及和应用。

希望这次的深入思考对大家有所启发！

就DeepScaleR的研究，本人都在着手准备下手垂直领域的模仿。请期待作者之后关于这方面的课题文章

复现准备

在这里先放出大概准备复现的学习资料（其实就是为自己复现准备使用的，臭美的放上来而已。哈哈😂）

准备阶段 - 学习知识目录列表：

I. DeepScaleR 项目概况

项目背景与问题
- 大型语言模型 (LLM) 在数学推理方面的挑战。
- 现有方法在处理复杂、多步骤数学问题时的局限性。
- DeepScaleR 提出的动机：利用强化学习 (RL) 提升 LLM 的数学推理能力。
项目目标
- 开发一个能够有效解决复杂数学问题的小型 LLM (1.5B 参数)。
- 在 AIME (美国数学邀请赛) 等基准测试上取得优异成绩。
- 验证通过强化学习和上下文长度扩展来提升 LLM 数学推理能力的可行性。
项目方法
- 核心思想： Group Relative Policy Optimization (GRPO) + 迭代式上下文长度扩展。
- GRPO: 一种改进的强化学习算法，专为 LLM 训练设计。
- 迭代式上下文长度扩展： 逐步增加模型处理的上下文长度，以适应更复杂的推理过程。
项目成果
- DeepScaleR-1.5B 在 AIME 2024 等数学推理任务上的表现。
- 与同等规模模型以及更大规模模型的比较。
- DeepScaleR 方法的有效性和创新性。

II. 强化学习 (RL) 基础

基本概念
- Agent (智能体): 与环境交互并学习策略的实体。
- Environment (环境): Agent 所处的外部世界，提供状态、动作和奖励。
- State (状态): 环境的当前描述。
- Action (动作): Agent 在特定状态下采取的行为。
- Reward (奖励): 环境对 Agent 动作的反馈，用于评估动作的好坏。
- Policy (策略): Agent 根据当前状态选择动作的规则或概率分布。
- Value Function (价值函数): 评估一个状态或状态-动作对的长期价值。
- Goal (目标): 最大化累积奖励。
Policy Gradient
- 基本思想： 直接优化策略，通过梯度上升来更新策略参数。
- REINFORCE 算法： 一种基本的 Policy Gradient 算法。
- Actor-Critic 算法： 结合 Policy Gradient 和 Value Function 的方法。
Proximal Policy Optimization (PPO)
- 动机： 提高 Policy Gradient 的稳定性和样本效率。
- Clipped Surrogate Objective (裁剪的代理目标函数): 限制策略更新的幅度，防止策略变化过大。
- Importance Sampling (重要性采样): 使用旧策略生成的数据来估计新策略的性能。
Advantage Function
- 定义： 动作价值函数与状态价值函数之间的差值，表示采取某个动作相对于平均水平的优势。
- 作用： 减少方差，提高训练稳定性。
KL Divergence
- 定义： 衡量两个概率分布之间差异的指标。
- 在 RL 中的应用： 限制策略更新的幅度，防止策略偏离过远。

III. DeepSeek-R1-Distilled-Qwen-1.5B 模型

模型结构
- 基于 Transformer 架构。
- 1.5B 参数规模。
- Qwen-1.5B的蒸馏模型。
模型特点
- 在保持较小规模的同时，具有良好的性能。
- 经过预训练，具备一定的语言理解和生成能力。
- 适合作为强化学习的初始模型。
模型获取
- 确定模型可以从哪里获取到, 比如 Hugging Face.

免责声明

本报告（关于“DeepScaleR：通过扩展强化学习，用1.5B模型超越O1-Preview”（译文）阅读报告）由[ViniJack.SJX] 根据公开可获得的信息以及作者的专业知识和经验撰写，旨在提供关于文章 – 关于“DeepScaleR：通过扩展强化学习，用1.5B模型超越O1-Preview”（译文）阅读报告的分析和信息。

1. 信息准确性与完整性：

作者已尽最大努力确保报告中信息的准确性和完整性，但不对其绝对准确性、完整性或及时性做出任何明示或暗示的保证。
报告中的信息可能随时间推移而发生变化，作者不承担更新报告内容的义务。
报告中引用的第三方信息（包括但不限于网站链接、项目描述、数据统计等）均来自公开渠道，作者不对其真实性、准确性或合法性负责。

2. 报告用途与责任限制：

本报告仅供参考和学习之用，不构成任何形式的投资建议、技术建议、法律建议或其他专业建议。
读者应自行判断和评估报告中的信息，并根据自身情况做出决策。
对于因使用或依赖本报告中的信息而导致的任何直接或间接损失、损害或不利后果，作者不承担任何责任。

3. 技术使用与合规性：

本报告中提及的任何爬虫框架、工具或技术，读者应自行负责其合法合规使用。
在使用任何爬虫技术时，读者应遵守相关法律法规（包括但不限于数据隐私保护法、知识产权法、网络安全法等），尊重网站的服务条款和robots协议，不得侵犯他人合法权益。
对于因读者违反相关法律法规或不当使用爬虫技术而导致的任何法律责任或纠纷，作者不承担任何责任。

4. 知识产权：