论文速读|A General Theoretical Paradigm to Understand Learning from Human Preferences
论文信息:
简介:
本文探讨了从人类偏好中学习(Learning from Human Preferences)的理论框架,特别是在强化学习(Reinforcement Learning, RL)中的应用。近年来,通过人类反馈进行强化学习(RLHF)变得越来越流行。这种方法依赖于两个重要的假设:首先,假设成对偏好可以被替换成点奖励(pointwise rewards);其次,假设在这些点奖励上训练的奖励模型能够从收集的数据泛化到策略采样的分布外数据。然而,这些方法仍然依赖于第一个假设。