谷歌提出全新RLHF方法SPO：消除奖励模型，且无需对抗性训练

最新推荐文章于 2024-07-23 09:42:09 发布

Amusi（CVer）

最新推荐文章于 2024-07-23 09:42:09 发布

阅读量203

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247592876&idx=3&sn=18556fec6081c62a6101b30890ee4123&chksm=f8b9465b2a148d677ab9d01e0aa879aaa16e2f152ddc9ca16fc1608a62a97f09f0976e70aa84&scene=126&sessionid=0

版权

CVer祝大家龙年快乐！重磅福利！CVer学术星球春节优惠券来了！为了感谢大家的支持，现在赠送10张50元新用户优惠券(下图左边二维码)，10张20元老用户续费券(下图右边二维码)，龙年坚持分享更多更好的工作，寒假不停更！助力你的科研和工作！顺利毕业升学，升职加薪！

转载自：机器之心 | 编辑：小舟

效果更稳定，实现更简单。

大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个奖励模型，通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而，奖励模型的关键要素可能会产生一些不良影响。

来自卡内基梅隆大学（CMU）和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化（Self-Play Preference Optimization，SPO）。该方法消除了奖励模型，并且不需要对抗性训练。

论文：A Minimaximalist Approach to Reinforcement Learning from Human Feedback

论文地址：https://arxiv.org/abs/2401.04056

方法简介

SPO 方法主要包括两个方面。首先，该研究通过将 RLHF 构建为两者零和博弈（zero-sum game），真正消除了奖励模型，从而更有能力处理实践中经常出现的噪声、非马尔可夫偏好。其次，通过利用博弈的对称性，该研究证明可以简单地以自我博弈的方式训练单个智能体，从而消除了不稳定对抗训练的需要。

实际上，这相当于从智能体中采样多个轨迹，要求评估者或偏好模型比较每对轨迹，并将奖励设置为轨迹的获胜率。

SPO 避免了奖励建模、复合 error 和对抗性训练。通过从社会选择理论（social choice theory）中建立最小最大获胜者的概念，该研究将 RLHF 构建为两者零和博弈，并利用该博弈支付矩阵的对称性来证明可以简单地训练单个智能体来对抗其自身。

该研究还分析了 SPO 的收敛特性，并证明在潜在奖励函数确实存在的情况下，SPO 能以与标准方法相媲美的快速速度收敛到最优策略。

实验

该研究在一系列具有现实偏好函数的连续控制任务上，证明了 SPO 比基于奖励模型的方法性能更好。SPO 在各种偏好设置中能够比基于奖励模型的方法更有效地学习样本，如下图 2 所示。

该研究从多个维度将 SPO 与迭代奖励建模 (RM) 方法进行比较，旨在回答 4 个问题：

当面 intransitive 偏好时，SPO 能否计算 MW？
在具有独特 Copeland Winners / 最优策略的问题上，SPO 能否匹配或超过 RM 样本效率？
SPO 对随机偏好的稳健性如何？
SPO 可以处理非马尔可夫偏好吗？

在最大奖励偏好、噪声偏好、非马尔可夫偏好方面，该研究的实验结果分别如下图 6、7、8 所示：

感兴趣的读者可以阅读论文原文，了解更多研究内容。

CVer祝大家龙年快乐！重磅福利！CVer学术星球春节优惠券来了！为了感谢大家的支持，现在赠送10张50元新用户优惠券(左图领取)，10张20元老用户续费券(右图领取)，龙年坚持分享更多更好的工作，寒假不停更！助力你的科研和工作！顺利毕业升学，升职加薪！

计算机视觉技术交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-计算机视觉微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

Amusi（CVer）

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
谷歌提出全新RLHF方法SPO：消除奖励模型，且无需对抗性训练

CVer祝大家龙年快乐！重磅福利！CVer学术星球春节优惠券来了！为了感谢大家的支持，现在赠送10张50元新用户优惠券(下图左边二维码)，10张20元老用户续费券(下图右边二维码)，龙年坚持分享更多更好的工作，寒假不停更！助力你的科研和工作！顺利毕业升学，升职加薪！转载自：机器之心 | 编辑：小舟效果更稳定，实现更简单。大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习（RLHF）」。RL...
复制链接

扫一扫