大模型系列——推理能力增强 rStar-Math 论文笔记

我们提出rStart-Math来证明小型语言模型SLM可以与OpenAI O1的数学推理能力相媲美甚至超越,而无需从更高级的模型中蒸馏。rStart-Math通过蒙特卡洛树搜索MCTS来实现深度思考,其中一个数学策略SLM执行测试时搜索,该搜索由基于SLM的过程奖励模型引导。

备注:搜索和一般的搜索如何结合?这里的引导指的是不同路径步骤的概率值。这种情况下,单个节点包含了什么? 和下围棋还是有区别的,如何构建这个模型,一个是输出具体位置,一个是输出节点,还是有区别点的。这种方式和普通推理增强又有何相似之处。

围绕这个方向,若能在一周内或最短时间内实现泛化版本,无疑是巨大成功。

rStart-Math提出了3种创新来应对训练两个SLM的挑战:(1)一种新颖的代码增强COT数据合成方法,该方法执行大量的MCTS展开,以生成用于训练策略SLM的逐步验证推理轨迹;(2)一种新颖的过程奖励模型训练方法,该方法避免了朴素的步骤级评分标注,从而产生了更有效地过程偏好模型(PPM);(3)一种自我进化方案,其中策略SLM和PPM从头开始构建,并迭代进化以提高推理能力。

备注:从头构建是什么意思?这里迭代进化提高推理能力

通过4轮自我进化,rStart-Math为747k道数学问题合成了数百万个解决方案,将SLM的数学推理能力提升至最先进水平。在MATCH基准测试中,它将Qwen2.5-Match-7B的准确率从58.8%提升至90%,将Phi3-mini-8B的准确率从41.4%提升至86.4%,超过o1-preview 4.5%和0.9%。在美国数学奥林匹克竞赛AIME种,rStart-Math的平均接触53.3%的问题,排名位列最优秀高中生数学学生的top20%。

表1:rStar-Math通过对64条轨迹进行深度思考,使SLM能够进行前沿数学推理。

备注:从数据来看,1.5B和7B的效果是接近的,基本接近QWQ-32B的效果。说明1.5b潜力巨大,可以匹配preview了。

最近研究表明,LLMS能够解决数学问题,但一次推理中生成完整解决方案的传统方法,类似于系统1通常会产生快速但容易出错的结果。测试时计算建议了一种向系统2式思维的范式转变,它通过更慢、更深入的的思考过程来模拟人类推理。在这个范式中,LLM充当策略模型,生成多个数学推理步骤,然后由另外一个充当奖励模型的LLM进行评估。

选择被认为更可能正确的步骤和解决方案。该过程反复迭,得出最终答案。

在测试时计算范式中,关键在于训练一个强大的策略模型,该模型能够生成有希望的解决方案步骤,以及一个可靠的奖励模型,能够准确地评估这些步骤,而这两者都依赖于高质量的训练数据。不幸的是,众所周知,现成的优质数学推理数据十分稀缺,合成高质量数学数据面临着根本性的挑战

对于策略模型,区分错误推理步骤和正确推理步骤是一个挑战,这使得消除低质量数据变得复杂。值得注意的是,在数学推理中,最终答案的正确性并不能保证整个推理轨迹的正确性 [Lanham 等人,2023]。不正确的中间步骤会显著降低数据质量。

对于奖励模型,过程奖励建模 (PRM) 显示出巨大的潜力,因为它能够提供对中间步骤的细粒度反馈 [Lightman 等人,2023]。然而,在这方面,训练数据更加稀缺:准确的逐步反馈需要大量的人工标注工作,难以扩展,而那些自动标注尝试由于奖励分数的噪声而显示出有限的收益 [Luo 等人,2024,Wang 等人,2024c,Chen 等人,2024]。

由于上述挑战,现有的基于蒸馏的数据合成方法用于训练策略模型,例如,扩展 GPT4 蒸馏的 CoT 数据 [Tang 等人,2024,Huang 等人,2024],已经显示出边际收益递减,并且无法超越其教师模型的能力;同时,截至目前,训练可靠的数学推理 PRM 仍然是一个悬而未决的问题

在本研究中,我们引入了 rStar-Math,一种自进化型系统 2 风格的推理方法,在具有挑战性的数学竞赛基准测试中取得了最先进的数学推理水平,与 OpenAI o1 相媲美,甚至在某些情况下超越了 OpenAI o1,而模型规模仅为 70 亿。与依赖于更强大的 LLM 进行数据合成的解决方案不同,rStar-Math 利用更小的语言模型 (SLM) 和蒙特卡洛树搜索 (MCTS) 来建立一个自进化过程,迭代地生成更高质量的训练数据。为了实现自进化,rStar-Math 引入了三个关键创新。

首先,我们提出了一种新颖的代码增强 CoT 数据合成方法,该方法通过执行广泛的蒙特卡洛树搜索(MCTS)展开来生成带有自注释 MCTS Q 值的逐步验证推理轨迹。具体来说,数学问题求解被分解为 MCTS 中的多步生成。在每一步中,充当策略模型的 SLM 会采样候选节点,每个节点都会生成一步 CoT 和相应的 Python 代码。为了验证生成的质量,只保留具有成功 Python 代码执行的节点,从而减轻中间步骤中的错误。此外,广泛的 MCTS 展开会根据每个中间步骤的贡献自动为其分配一个 Q 值:对导致正确答案的更多轨迹有贡献的步骤将获得更高的 Q 值,并被认为质量更高。这确保了由 SLM 生成的推理轨迹包含正确、高质量的中间步骤。

其次,提出了一种新方法,该方法训练一个充当过程偏好模型(PPM)的 SLM 来实现所需的 PRM,该模型可以可靠地预测每个数学推理步骤的奖励标签。PPM 利用了这样一个事实,即尽管使用广泛的 MCTS 展开,但 Q 值仍然不够精确,无法对每个推理步骤进行评分,但 Q 值可以可靠地区分正(正确)步骤和负(无关/不正确)步骤。因此,该训练方法基于 Q 值为每个步骤构建偏好对,并使用成对排序损失 [Ouyang 等人,2022] 来优化 PPM 对每个推理步骤的评分预测,从而实现可靠的标记。这种方法避免了直接使用 Q 值作为奖励标签的传统方法 [Luo 等人,2024,Chen 等人,2024],这些方法在逐步奖励分配中固有地存在噪声和不精确性。

最终,我们提出了一种四轮自进化方案,逐步从头开始构建前沿策略模型和 PPM。我们首先从公开来源收集了 747k 道数学文字题数据集。在每一轮中,我们使用最新的策略模型和 PPM 执行 MCTS,利用上述两种方法生成质量越来越高的训练数据,以训练更强大的策略模型和 PPM 用于下一轮。每一轮都实现了逐步改进:(1)更强大的策略 SLM,(2)更可靠的 PPM,(3)通过 PPM 增强的 MCTS 生成更好的推理轨迹,以及&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值