Introduction
- 作者提出 Process-supervised Reward Models (PRMs) 评估回答中每个推理步骤的质量,相比 Outcome-supervised reward models (ORMs) 能更好、更细粒度地评估回答质量,从而帮助 LLM 更好地解决复杂推理任务 (PRM 既可以在 RL 训练时作为 reward model 提供更好的奖励信号,又可以在推理时作为 verifier 帮助 LLM 搜索到更好的解);此外,利用 active learning 训练 PRM 能够更有效地利用数据;最后,作者还开源了用于训练 PRM 的人工标注的推理过程得分数据集 PRM800K (800,000 step-level human feedback labels)
Method
- Outcome-supervised Reward Models (ORMs). 作者 follow 了 Cobbe et al. (2021) 来训练 ORM,对每个问题都从 generator 里随机采样出若干回答,然后训练 ORM 预测每个回答是否正确
- Process-supervised Reward Models (PRMs). 作者在 PRM800K 数据集上训练 PRMs 预测每个推理步骤的正确性,在每个推理步骤结束的位置通过 next-token prediction 的方式预测该推理步骤是否正确,并且 PRM 不会检查错误推理步骤之后步骤的正确性,这样也更利于数据集的标注;整个回答的得分为所有推理步骤得分的乘积和
Experiments
- 作者固定了 base model (i.e., generator),然后利用 generator 辅助 base model 使用 best-of-N search 进行推理,精度越高则说明 reward model 能力越强
- Large-scale Supervision.
- Small-scale Synthetic Supervision. 作者将 Large-scale Supervision 训练得到的模型作为
PRM
l
a
r
g
e
\text{PRM}_{large}
PRMlarge 提供监督信号训练更小的 reward model,从而在训练设置完全相同的情况下公平地比较 PRM 和 ORM;此外,作者发现 active learning 非常 data-efficient,作者从每个 problem 采样出 1 个 sample 用于训练更小规模的 reward model
PRM
s
e
l
e
c
t
o
r
\text{PRM}_{selector}
PRMselector,然后用
PRM
s
e
l
e
c
t
o
r
\text{PRM}_{selector}
PRMselector 为每个问题的 1000 个 samples 打分,从中选择
N
N
N 个 samples 用于训练 PRM,其中 80% 为
PRM
s
e
l
e
c
t
o
r
\text{PRM}_{selector}
PRMselector 置信度最高的错误回答,20% 为剩余回答中
PRM
s
e
l
e
c
t
o
r
\text{PRM}_{selector}
PRMselector 置信度最高的回答,相当于是筛选出了难样本并均衡了正负样本数
- OOD Generalization.