ICLR 2024 | 持续近端策略优化算法:人类反馈的持续强化学习

本文介绍了一种名为CPPO的持续近端策略优化算法,该算法旨在解决在不断变化的人类偏好下,大语言模型的持续对齐问题。传统的人类反馈强化学习方法需要对模型进行全面重训,而CPPO通过自适应权重策略平衡策略学习和知识保留,提高效率和稳定性。实验表明,CPPO在处理动态人类偏好时,优于传统的持续学习方法和近端策略优化(PPO)算法。
摘要由CSDN通过智能技术生成

fa3fbf034a22cd307105a88e0540a06d.gif

©PaperWeekly 原创 · 作者 | 张晗

单位 | 哈尔滨工业大学(深圳),鹏城实验室

研究方向 | 大模型人类价值观对齐,持续学习

a726e40898a40ae20c740bfcf15ad1ec.png

简介

人类反馈强化学习(RLHF)作为提升大语言模型(LLM)与人类偏好对齐的重要手段。现有 RLHF 方法在处理不断变化的人类偏好时,往往需要对 LLM 进行全参数重新训练,这在实际应用中面临着时间、计算成本及数据隐私等方面的巨大挑战。

依托哈尔滨工业大学(深圳)和鹏城实验室共同开展的研究,本论文提出一种持续近端策略优化(CPPO)算法,旨在解决这一难题,实现语言模型对动态人类偏好的持续对齐。

1.1 背景与挑战

研究表明,利用人类反馈对语言模型进行 RLHF 微调 [1],能够显著提升模型在诸如文本摘要 [2]、翻译、对话生成等任务上的表现,使其生成结果更符合人类偏好。然而,现有方法在处理跨领域或主题变化导致的人类偏好差异时,要求对整个模型进行重新训练 [3],这在现实场景中存在巨大挑战。

1.2 创新亮点

动态权重策略:作者提出的 CPPO 算法独创性地引入了自适应权重策略,根据样本特性自动区分用于增强策略学习与巩固过往经验的训练数据。这种策略旨在平衡策略学习与知识保留,确保模型在不断适应新偏好时,旧知识得以有效维护。

超越基准性能:实验结果显示,CPPO 在持续对齐人类偏好的任务上,明显优于传统的持续学习(CL)基线方法。此外,与经典近端策略优化 [4](PPO)相比,CPPO 在非持续学习场景中展现出更高的效率与稳定性。

979e0d6d3581a789ad4476bf0d504341.png

论文题目:

CPPO: Continual Learning for Reinforcement Learning With Human Feedback

论文地址:

https://openreview.net/pdf?id=86zAU

  • 12
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值