REbel:通过回归相对回报的强化学习
虽然最初是为连续控制问题而开发的,但最近策略优化(PPO)已经成为各种强化学习(RL)应用的主力,包括产生式模型的微调。不幸的是, PPO 需要多个启发式方法来实现稳定的收敛(例如,值网络、剪裁),并且因其对这些组件的精确实现的敏感性而臭名昭著。作为回应,我们退一步问,在生成模型时代,极简主义的 RL 算法会是什么样子。我们提出了 Revert 算法,它干净利落地减少了策略优化问题,将两次完成之间的相对回报回归为策略方面的提示,从而实现了惊人的轻量级实现。在理论上,我们证明了基本的 RL 算法,如自然策略梯度,可以被视为 Revert 的变体,这使我们能够在收敛和样本复杂性方面达到 RL 文献中已知的最强理论保证。Revert 还可以干净利落地合并离线数据,并进行扩展以处理我们在实践中经常看到的不可传递的偏好。通过实验,我们发现 Revert 提供了一种统一的语言建模和图像生成方法,其性能比 PPO 和 DPO 更强或更接近,同时实现更简单,计算效率更高。
联合集成引导的离线强化学习
我们考虑了联合离线强化学习(RL)问题,在这种情况下,分布式学习代理必须只使用根据不同未知行为策略生成的预先收集的小数据集来协作学习高质量的控制策略。针对这一问题,我们提出了一种基于联邦集成的离线强化学习算法(FEDRA),该算法通过集成学习的方式提取客户的集体智慧。我们开发了 FEDRA 代码库来利用联邦学习平台上的分布式计算资源。在各种复杂的连续控制环境和真实世界的数据集上, FEDRA 的性能明显优于其他方法,包括组合数据池上的离线 RL。最后,我们在移动机器人上展示了 FEDRA 的性能。