[ICLR 2024] Let‘s Verify Step by Step

连理o

已于 2024-12-05 10:50:40 修改

阅读量986

点赞数 26

文章标签： ICLR 2024

于 2024-10-05 10:03:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42437114/article/details/142703541

版权

模型部署专栏收录该内容

41 篇文章

订阅专栏

Contents

Introduction
Method
Experiments
References

Introduction

作者提出 Process-supervised Reward Models (PRMs) 评估回答中每个推理步骤的质量，相比 Outcome-supervised reward models (ORMs) 能更好、更细粒度地评估回答质量，从而帮助 LLM 更好地解决复杂推理任务 (PRM 既可以在 RL 训练时作为 reward model 提供更好的奖励信号，又可以在推理时作为 verifier 帮助 LLM 搜索到更好的解)；此外，利用 active learning 训练 PRM 能够更有效地利用数据；最后，作者还开源了用于训练 PRM 的人工标注的推理过程得分数据集 PRM800K (800,000 step-level human feedback labels)

Method

Outcome-supervised Reward Models (ORMs). 作者 follow 了 Cobbe et al. (2021) 来训练 ORM，对每个问题都从 generator 里随机采样出若干回答，然后训练 ORM 预测每个回答是否正确
Process-supervised Reward Models (PRMs). 作者在 PRM800K 数据集上训练 PRMs 预测每个推理步骤的正确性，在每个推理步骤结束的位置通过 next-token prediction 的方式预测该推理步骤是否正确，并且 PRM 不会检查错误推理步骤之后步骤的正确性，这样也更利于数据集的标注；整个回答的得分为所有推理步骤得分的乘积和

Experiments

作者固定了 base model (i.e., generator)，然后利用 generator 辅助 base model 使用 best-of-N search 进行推理，精度越高则说明 reward model 能力越强

Large-scale Supervision.
Small-scale Synthetic Supervision. 作者将 Large-scale Supervision 训练得到的模型作为 $\text{PRM}_{large}$ 提供监督信号训练更小的 reward model，从而在训练设置完全相同的情况下公平地比较 PRM 和 ORM；此外，作者发现 active learning 非常 data-efficient，作者从每个 problem 采样出 1 个 sample 用于训练更小规模的 reward model $\text{PRM}_{selector}$ ，然后用 $\text{PRM}_{selector}$ 为每个问题的 1000 个 samples 打分，从中选择 $N$ 个 samples 用于训练 PRM，其中 80% 为 $\text{PRM}_{selector}$ 置信度最高的错误回答，20% 为剩余回答中 $\text{PRM}_{selector}$ 置信度最高的回答，相当于是筛选出了难样本并均衡了正负样本数
OOD Generalization.

References

Lightman, Hunter, et al. “Let’s verify step by step.” arXiv preprint arXiv:2305.20050 (2023).

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。