CONTRASTIVE PREFERENCE LEARNING: LEARNING FROM HUMAN FEEDBACK WITHOUT RL

828 篇文章

已下架不支持订阅

本文提出了一种名为对比偏好学习(CPL)的新算法,该算法无需强化学习(RL)即可从人类反馈中学习最优策略。CPL解决了RLHF方法在高维和顺序问题上的优化挑战,适用于任意MDP,并在实验中表现出优于RL基线的效果。然而,CPL也面临一些局限性,如需预先知道评分人的贴现因子和对大量GPU内存的需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《CONTRASTIVE PREFERENCE LEARNING: LEARNING FROM HUMAN FEEDBACK WITHOUT RL》的翻译。

对比偏好学习:从没有RL的人的反馈中学习

摘要

从人类反馈中强化学习(RLHF)已经成为一种流行的将模型与人类意图相一致的范式。RLHF算法通常分为两个阶段:第一,使用人类偏好来学习奖励函数,第二,通过强化学习(RL)优化所学习的奖励来调整模型。这种范式假设人类的偏好是根据奖励来分配的,但最近的研究表明,在用户的最优策略下,他们会遵循后悔。因此,从反馈中学习奖励函数不仅是基于对人类偏好的有缺陷的假设,而且还会导致难以处理的优化挑战,这些挑战源于RL阶段的策略梯度或自举。由于这些优化挑战,当代RLHF方法将自己限制在上下文bandit设置(例如,在大型语言模型中)或限制观察维度(例如,基于状态的机器人)。我们通过引入一系列新的算法来克服这些限制,这些算法使用基于后悔的人类偏好模型来优化人类反馈的行为。利用最大熵原理,我们推导出了对比偏好学习(CPL),这是一种在不学习奖励函数的情况下从偏好中学习最优策略的算法,避免了对RL的需求。CPL是完全脱离策略的,只使用一个简单的对比目标,并且可以应用于任意的MDP。这使得CPL

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值