大模型系列——推理能力增强 rStar-Math 论文笔记

最新推荐文章于 2025-05-21 15:58:32 发布

confiself

最新推荐文章于 2025-05-21 15:58:32 发布

阅读量1.2k

点赞数 22

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/u012599545/article/details/145073403

版权

我们提出rStart-Math来证明小型语言模型SLM可以与OpenAI O1的数学推理能力相媲美甚至超越，而无需从更高级的模型中蒸馏。rStart-Math通过蒙特卡洛树搜索MCTS来实现深度思考，其中一个数学策略SLM执行测试时搜索，该搜索由基于SLM的过程奖励模型引导。

备注：搜索和一般的搜索如何结合？这里的引导指的是不同路径步骤的概率值。这种情况下，单个节点包含了什么？和下围棋还是有区别的，如何构建这个模型，一个是输出具体位置，一个是输出节点，还是有区别点的。这种方式和普通推理增强又有何相似之处。

围绕这个方向，若能在一周内或最短时间内实现泛化版本，无疑是巨大成功。

rStart-Math提出了3种创新来应对训练两个SLM的挑战：（1）一种新颖的代码增强COT数据合成方法，该方法执行大量的MCTS展开，以生成用于训练策略SLM的逐步验证推理轨迹；（2）一种新颖的过程奖励模型训练方法，该方法避免了朴素的步骤级评分标注，从而产生了更有效地过程偏好模型（PPM）;（3）一种自我进化方案，其中策略SLM和PPM从头开始构建，并迭代进化以提高推理能力。

备注：从头构建是什么意思？这里迭代进化提高推理能力

通过4轮自我进化，rStart-Math为747k道数学问题合成了数百万个解决方案，将SLM的数学推理能力提升至最先进水平。在MATCH基准测试中，它将Qwen2.5-Match-7B的准确率从58.8%提升至90%，将Phi3-mini-8B的准确率从41.4%提升至86.4%，超过o1-preview 4.5%和0.9%。在美国数学奥林匹克竞赛AIME种，rStart-Math的平均接触53.3%的问题，排名位列最优秀高中生数学学生的top20%。

表1：rStar-Math通过对64条轨迹进行深度思考，使SLM能够进行前沿数学推理。

备注：从数据来看，1.5B和7B的效果是接近的，基本接近QWQ-32B的效果。说明1.5b潜力巨大，可以匹配preview了。

最近研究表明，LLMS能够解决数学问题，但一次推理中生成完整解决方案的传统方法，类似于系统1通常会产生快速但容易出错的结果。测试时计算建议了一种向系统2式思维的范式转变，它通过更慢、更深入的的思考过程来模拟人类推理。在这个范式中，LLM充当策略模型，生成多个数学推理步骤，然后由另外一个充当奖励模型的LLM进行评估。

选择被认为更可能正确的步骤和解决方案。该过程反复迭，得出最终答案。

在测试时计算范式中，关键在于训练一个强大的策略模型，该模型能够生成有希望的解决方案步骤，以及一个可靠的奖励模型，能够准确地评估这些步骤，而这两者都依赖于高质量的训练数据。不幸的是，众所周知，现成的优质数学推理数据十分稀缺，合成高质量数学数据面临着根本性的挑战。

对于策略模型，区分错误推理步骤和正确推理步骤是一个挑战，这使得消除低质量数据变得复杂。值得注意的是，在数学推理中，最终答案的正确性并不能保证整个推理轨迹的正确性 [Lanham 等人，2023]。不正确的中间步骤会显著降低数据质量。

对于奖励模型，过程奖励建模 (PRM) 显示出巨大的潜力，因为它能够提供对中间步骤的细粒度反馈 [Lightman 等人，2023]。然而，在这方面，训练数据更加稀缺：准确的逐步反馈需要大量的人工标注工作，难以扩展，而那些自动标注尝试由于奖励分数的噪声而显示出有限的收益 [Luo 等人，2024，Wang 等人，2024c，Chen 等人，2024]。

由于上述挑战，现有的基于蒸馏的数据合成方法用于训练策略模型，例如，扩展 GPT4 蒸馏的 CoT 数据 [Tang 等人，2024，Huang 等人，2024]，已经显示出边际收益递减，并且无法超越其教师模型的能力；同时，截至目前，训练可靠的数学推理 PRM 仍然是一个悬而未决的问题。

在本研究中，我们引入了 rStar-Math，一种自进化型系统 2 风格的推理方法，在具有挑战性的数学竞赛基准测试中取得了最先进的数学推理水平，与 OpenAI o1 相媲美，甚至在某些情况下超越了 OpenAI o1，而模型规模仅为 70 亿。与依赖于更强大的 LLM 进行数据合成的解决方案不同，rStar-Math 利用更小的语言模型 (SLM) 和蒙特卡洛树搜索 (MCTS) 来建立一个自进化过程，迭代地生成更高质量的训练数据。为了实现自进化，rStar-Math 引入了三个关键创新。

首先，我们提出了一种新颖的代码增强 CoT 数据合成方法，该方法通过执行广泛的蒙特卡洛树搜索（MCTS）展开来生成带有自注释 MCTS Q 值的逐步验证推理轨迹。具体来说，数学问题求解被分解为 MCTS 中的多步生成。在每一步中，充当策略模型的 SLM 会采样候选节点，每个节点都会生成一步 CoT 和相应的 Python 代码。为了验证生成的质量，只保留具有成功 Python 代码执行的节点，从而减轻中间步骤中的错误。此外，广泛的 MCTS 展开会根据每个中间步骤的贡献自动为其分配一个 Q 值：对导致正确答案的更多轨迹有贡献的步骤将获得更高的 Q 值，并被认为质量更高。这确保了由 SLM 生成的推理轨迹包含正确、高质量的中间步骤。

其次，提出了一种新方法，该方法训练一个充当过程偏好模型（PPM）的 SLM 来实现所需的 PRM，该模型可以可靠地预测每个数学推理步骤的奖励标签。PPM 利用了这样一个事实，即尽管使用广泛的 MCTS 展开，但 Q 值仍然不够精确，无法对每个推理步骤进行评分，但 Q 值可以可靠地区分正（正确）步骤和负（无关/不正确）步骤。因此，该训练方法基于 Q 值为每个步骤构建偏好对，并使用成对排序损失 [Ouyang 等人，2022] 来优化 PPM 对每个推理步骤的评分预测，从而实现可靠的标记。这种方法避免了直接使用 Q 值作为奖励标签的传统方法 [Luo 等人，2024，Chen 等人，2024]，这些方法在逐步奖励分配中固有地存在噪声和不精确性。

最终，我们提出了一种四轮自进化方案，逐步从头开始构建前沿策略模型和 PPM。我们首先从公开来源收集了 747k 道数学文字题数据集。在每一轮中，我们使用最新的策略模型和 PPM 执行 MCTS，利用上述两种方法生成质量越来越高的训练数据，以训练更强大的策略模型和 PPM 用于下一轮。每一轮都实现了逐步改进：（1）更强大的策略 SLM，（2）更可靠的 PPM，（3）通过 PPM 增强的 MCTS 生成更好的推理轨迹，以及&

最低0.47元/天解锁文章