层次化多步奖励模型:增强大模型推理能力的新探索
随着大模型在各类生成任务中的表现不断提升,如何进一步改进它们在多步推理任务中的能力,特别是数学和逻辑推理方面,已成为大家的关注点。本文通过引入层次化评估和高效的数据增强策略,有效提升了模型在多步推理任务中的表现,尤其在模型需要识别并纠正前序错误的场景中表现突出。
1. 基本信息
标题:层次化多步奖励模型:增强大模型推理能力的新探索(Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models)
arXiv链接:https://www.arxiv.org/pdf/2503.13551
2. 研究背景
随着大模型参数规模不断扩大,它们在文本理解和数据生成等任务中的能力显著提升,甚至超越了人类水平。但在数学和逻辑推理等需要严密思考的任务中,大模型的能力上限和内在局限性仍是一个开放性问题。虽然近期的方法如思维链(Chain-of-Thought, CoT)和思维树(Tree-of-Thought, ToT)大幅提升了推理性能,但它们各有不足:CoT缺乏在中间步骤出错时暂停推理的机制,导致错误传播;而ToT不能内在地验证每个中间步骤,也无法保证找到最优的推理路径,这在复杂问题解决场景中限制了其可靠性。
目前大模型推理能力增强的奖励机制主要有两种:结果奖励模型(Outcome Reward Model, ORM)和过程奖励模型(Process Reward Model, PRM)。ORM存在反馈延迟和信用分配问题,难以确定哪些推理步骤对最终答案有贡献;PRM提供更细粒度的监督,但容易受到奖励黑客(reward hacking)的影响,模型可能会利用奖励信号而非真正提升推理能力,降低了在复杂任务中的可靠性。此外,PRM的高注释成本也使大规模部署面临挑战。
本研究聚焦于解决PRM中的局限性,特别是如何减轻奖励黑客对PRM的影响。传统PRM会在推理步骤出错时直接惩罚,而不考虑后续步骤可能的纠正。相比之下,本文提出的层次化奖励模型(HRM)评估多个步骤间的推理连贯性,能够识别并整合后续对早期错误的修正,从而实现更稳健可靠的评估。
3. 方法
3.1 层次化奖励模型(HRM)
现有的奖励建模方法各有优缺点:PRM专注于细粒度、逐步推理评估,而ORM则评估整体推理过程。为整合两者优势,作者提出了层次化奖励模型(HRM),该模型不仅评估单个推理步骤,还通过分析连续步骤确保多步推理的连贯性。
HRM的训练数据集由从第1步到第N步的连续推理序列组成,是PRM训练数据的超集。具体来说,HRM训练数据在PRM单步数据的基础上,额外合并了连续的推理步骤对,以增强推理连贯性并改进错误纠正中的自我反思能力。形式上,若以表示训练数据集,表示推理序列中的总步骤数,表示第个推理步骤,表示为步骤分配分数的奖励函数,则PRM和HRM的训练数据集定义为:
HRM设计有两个主要目标:(1) 同时捕捉细粒度和粗粒度的推理一致性;(2) 实现自我反思和错误纠正。与PRM在遇到错误时终止评估不同,HRM会评估后续步骤是否纠正了早期错误,将它们视为一个整体而非孤立的错误。
值得注意的是,虽然HRM训练数据包含合并的推理步骤,但在推理阶段,该模型仍然像PRM一样逐步评估,仅基于当前步骤分配奖励。
3.2 层次化节点压缩(HNC)
尽管过程监督能够增强政策模型的推理能力,但人工注释的成本极高。为解决这一问题,已有研究提出基于蒙特卡洛树搜索(MCTS)的自动注释方法。在此基础上,作者提出了**层次化节点压缩(HNC)**数据增强方法,最大程度地利用MCTS生成的数据。
HNC的核心思想是将两个连续的节点(每个对应一个推理步骤)合并为单个节点,从而创建一个新分支,几乎不增加计算开销。HNC假设每个节点有足够多的子节点,通过随机删除或合并连续节点,引入受控噪声,增强基于MCTS的评分的鲁棒性。
在HNC之前,每个子节点对总分数的贡献为。HNC随机移除一个节点后,剩余子节点的权重重新分配为,增加了它们的个体影响力。从父节点的角度看,子节点是独立同分布的,因此父节点分数的期望保持不变。但方差从增加到,引入了受控噪声,实现了极低计算成本的有效数据增强。当足够大时,这种方差变化保持适度,同时仍能促进有效的数据增强。
3.3 自我训练
为从MCTS中筛选高质量推理数据,作者采用了基于MC-Score或利用PRM/HRM分配分数的两种方法。为缓解奖励模型导致的奖励黑客问题,作者应用了基于MC-Score的高质量数据过滤器。
受计算资源限制,本研究未采用PPO或GRPO等强化学习方法,而是继续使用监督式微调。为保留政策模型的通用能力,作者结合了因果语言建模损失和使用参考模型的KL散度正则化。目标函数定义为:
其中表示在高质量推理序列上计算的因果语言建模损失,表示策略模型输出分布与参考模型输出分布之间的KL散度,作为权重因子平衡任务特定适应和通用能力的保留。
适当的对数缩放确保了KL损失(通常范围0到20000)与因果LM损失(范围0到12)之间的平衡,稳定了损失分布,在保留通用语言能力和增强推理能力之间取得了平衡。
4. 实验与发现
4.1 HRM评估
研究利用PRM800K数据集的人工注释构建了ORM、PRM和HRM的训练数据集。作者使用Qwen2.5-1.5B-Math作为奖励模型(RM),用于将给定的推理步骤分类为正确或错误。政策模型使用Qwen2.5-72B-Math-Instruct,并实施最佳N策略(best-of-N strategy):ORM从N个完整推理轨迹中选择最佳结果,而PRM和HRM则对N个中间推理步骤进行评分,并在每一步选择最有希望的步骤。
实验表明,随着N值增加,政策模型在ORM和PRM下的准确率表现出显著波动,且呈下降趋势。相比之下,使用HRM的政策模型保持稳定表现,并随着N值增长收敛到80%的准确率,展现出对奖励黑客的更强鲁棒性。
4.2 HNC实验
本节中,作者仅使用了PRM800K数据集的问题和标准答案,而不依赖人工注释数据。他们采用具有Qwen2.5-7B-Math-Instruct的MCTS作为自动注释方法生成推理轨迹,然后用这些自动注释的推理轨迹训练PRM,之后应用HNC数据增强方法为HRM生成额外训练数据。
为平衡计算效率和鲁棒性,MCTS配置为每个父节点5-6个子节点,最大树深度为7,确保在7步内完成推理。完整MCTS模拟需要约2,457 A100-80GB GPU小时,而HNC增强过程仅需约30分钟。
作者对不同政策模型(包括Qwen2.5-7B-Math-Instruct、DeepSeek-Math和Qwen2.5-72B-Math-Instruct)在PRM800K数据集上采用best-of-N策略进行评估。结果显示,尽管PRM和HRM的训练数据均来自同一MCTS系统,但在所有政策模型中,HRM始终表现出比PRM更高的稳定性和鲁棒性。
4.3 自我训练结果
作者从PRM和HRM训练数据集中提取高MC分数的推理数据,对Qwen2.5-7B-Math-Instruct进行微调,权重因子设为0.5。实验进一步验证了监督式微调通过利用高质量数据增强政策模型的推理能力,其中HRM相比PRM展现出更强的鲁棒性。
4.4 HRM在不同领域的泛化能力
为拓展HRM的应用范围并评估其泛化能力,作者评估了在PRM800K数据集上训练的HRM和PRM在Math500和GSM8K数据集上的表现。结果表明,HRM在不同领域展现出更强的鲁棒性,表现出优秀的泛化性能,尤其在处理复杂数学推理任务的Math500上效果显著。
在GSM8K数据集上,HRM和PRM之间的性能差异较小,这是因为GSM8K主要由相对简单的算术问题组成,强大的政策模型通常能在三步内解决这些问题,减弱了HRM关键优势(如评估多步推理连贯性和促进自我反思)的影响。尽管如此,即使在GSM8K这样的简单数据集上,HRM仍然比PRM略胜一筹。
5. 结论
本论文提出了层次化奖励模型(HRM),通过整合细粒度和粗粒度评估增强多步推理评估,改进推理连贯性和自我反思能力。同时引入层次化节点压缩(HNC)作为数据增强方法,优化基于MCTS的自主注释,在极低计算成本下增强标签多样性并扩展训练数据。在PRM800K数据集上的广泛实验证明了HRM相比PRM具有更强的鲁棒性,并在GSM8K和MATH500数据集上展现出良好的泛化能力。此外,MCTS生成的自动标注数据还实现了政策模型的微调,进一步提升了推理性能。
未来研究可以探索更多元化的层次结构设计,扩展HRM到更广泛的复杂推理任务中,如逻辑推理、创意问题解决等。同时,进一步优化HNC方法,提高数据增强的效率和质量,也是值得关注的方向。随着计算资源的提升,将先进的强化学习技术与HRM相结合,构建端到端的推理优化系统,有望带来更多突破性进展。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。