本文是LLM系列文章,针对《CONTRASTIVE PREFERENCE LEARNING: LEARNING FROM HUMAN FEEDBACK WITHOUT RL》的翻译。
摘要
从人类反馈中强化学习(RLHF)已经成为一种流行的将模型与人类意图相一致的范式。RLHF算法通常分为两个阶段:第一,使用人类偏好来学习奖励函数,第二,通过强化学习(RL)优化所学习的奖励来调整模型。这种范式假设人类的偏好是根据奖励来分配的,但最近的研究表明,在用户的最优策略下,他们会遵循后悔。因此,从反馈中学习奖励函数不仅是基于对人类偏好的有缺陷的假设,而且还会导致难以处理的优化挑战,这些挑战源于RL阶段的策略梯度或自举。由于这些优化挑战,当代RLHF方法将自己限制在上下文bandit设置(例如,在大型语言模型中)或限制观察维度(例如,基于状态的机器人)。我们通过引入一系列新的算法来克服这些限制,这些算法使用基于后悔的人类偏好模型来优化人类反馈的行为。利用最大熵原理,我们推导出了对比偏好学习(CPL),这是一种在不学习奖励函数的情况下从偏好中学习最优策略的算法,避免了对RL的需求。CPL是完全脱离策略的,只使用一个简单的对比目标,并且可以应用于任意的MDP。这使得CPL