本文是LLM系列文章,针对《Secrets of RLHF in Large Language Models Part II: Reward Modeling》的翻译。
大型语言模型中RLHF的秘密——第二部分:奖励模型
摘要
从人类反馈中强化学习(RLHF)已成为将语言模型与人类价值观和意图相一致的关键技术,使模型能够产生更有益和无害的反应。奖励模型被训练为人类偏好的代理,以驱动强化学习优化。虽然奖励模型通常被认为是实现高性能的核心,但它们在实际应用中面临以下挑战:(1)数据集中不正确和模糊的偏好对可能会阻碍奖励模型准确捕捉人类意图。(2) 根据特定分布的数据训练的奖励模型通常难以推广到该分布之外的示例,并且不适合迭代RLHF训练。
在本报告中,我们试图解决这两个问题。(1) 从数据的角度来看,我们提出了一种基于多个奖励模型的投票机制来衡量数据中偏好强度的方法。实验结果证实,不同偏好强度的数据对奖励模型的性能有不同的影响。我们引入了一系列新方法来减轻数据集中不正确和模糊偏好的影响,并充分利用高质量的偏好数据。(2) 从算法的角度来看,我们引入了对比学习,以增强奖励模型区分被选择和被拒绝响应的能力,从而提高模型的泛化能力。此外,我们使用元学习来使奖励模型能够保持区分分布外样本中细微差异的能力,并且这种方法可以用于迭代RLHF优化。
我们已经开源了本报告