[ICLR 2024] Let‘s Verify Step by Step

Introduction

  • 作者提出 Process-supervised Reward Models (PRMs) 评估回答中每个推理步骤的质量,相比 Outcome-supervised reward models (ORMs) 能更好、更细粒度地评估回答质量,从而帮助 LLM 更好地解决复杂推理任务 (PRM 既可以在 RL 训练时作为 reward model 提供更好的奖励信号,又可以在推理时作为 verifier 帮助 LLM 搜索到更好的解);此外,利用 active learning 训练 PRM 能够更有效地利用数据;最后,作者还开源了用于训练 ORM 的人工标注的推理过程得分数据集 PRM800K (800,000 step-level human feedback labels)
    在这里插入图片描述

Method

  • Outcome-supervised Reward Models (ORMs). 作者 follow 了 Cobbe et al. (2021) 来训练 ORM,对每个问题都从 generator 里随机采样出若干回答,然后训练 ORM 预测每个回答是否正确
  • Process-supervised Reward Models (PRMs). 作者在 PRM800K 数据集上训练 PRMs 预测每个推理步骤的正确性,在每个推理步骤结束的位置通过 next-token prediction 的方式预测该推理步骤是否正确,并且 PRM 不会检查错误推理步骤之后步骤的正确性,这样也更利于数据集的标注;整个回答的得分为所有推理步骤得分的乘积和
    在这里插入图片描述

Experiments

  • 作者固定了 base model (i.e., generator),然后利用 generator 辅助 base model 使用 best-of-N search 进行推理,精度越高则说明 reward model 能力越强

  • Large-scale Supervision.
    在这里插入图片描述
  • Small-scale Synthetic Supervision. 作者将 Large-scale Supervision 训练得到的模型作为 PRM l a r g e \text{PRM}_{large} PRMlarge 提供监督信号训练更小的 reward model,从而在训练设置完全相同的情况下公平地比较 PRM 和 ORM;此外,作者发现 active learning 非常 data-efficient,作者从每个 problem 采样出 1 个 sample 用于训练更小规模的 reward model PRM s e l e c t o r \text{PRM}_{selector} PRMselector,然后用 PRM s e l e c t o r \text{PRM}_{selector} PRMselector 为每个问题的 1000 个 samples 打分,从中选择 N N N 个 samples 用于训练 PRM,其中 80% 为 PRM s e l e c t o r \text{PRM}_{selector} PRMselector 置信度最高的错误回答,20% 为剩余回答中 PRM s e l e c t o r \text{PRM}_{selector} PRMselector 置信度最高的回答,相当于是筛选出了难样本并均衡了正负样本数
    在这里插入图片描述
  • OOD Generalization.
    在这里插入图片描述

References

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值