ICLR2024-强化学习+持续学习《CPPO: Continual Learning for Reinforcement Learning with Human Feedback》

论文摘要

强化学习从人类反馈(RLHF)的方法被广泛用于增强预训练语言模型(LM),使它们能更好地与人类偏好对齐。然而,现有的基于RLHF的LM在引入新查询或反馈时需要完全重新训练,因为人类的偏好可能在不同的领域或主题之间有所不同。现有的RLHF方法在引入新的查询或反馈时需要对语言模型(LM)进行重新训练,这在实际应用中往往因时间、计算成本和数据隐私问题而不可行。本文提出了CPPO(连续近端策略优化,Continual Proximal Policy Optimization),这是一种用于强化学习中人类反馈(Reinforcement Learning from Human Feedback, RLHF)的持续学习方法。CPPO通过采用加权策略来决定哪些样本用于增强策略学习,哪些样本用于巩固以往经验,从而在策略学习和知识保留之间寻求平衡。实验结果表明,CPPO在持续与人类偏好对齐方面优于现有的持续学习(Continual Learning, CL)基线,并且在非持续学习场景中比PPO(Proximal Policy Optimization)更高效、更稳定。

Introduction

拟解决的问题:现有的RLHF方法在引入新的查询或反馈时需要对语言模型进行完全重新训练,这在实际应用中存在以下问题:

  • 时间成本:重新训练需要大量时间。
  • 计算成本:重新训练需要大量的计算资源。
  • 数据隐私:重新训练可能涉及数据隐私问题,尤其是当数据包含敏感信息时。
  • 模型适应性:重新训练可能导致模型在新任务上表现良好,但在旧任务上出现遗忘(catastrophic forgetting)。

创新之处

  • 持续学习能力:CPPO能够在不完全重新训练的情况下,持续地与动态变化的人类偏好对齐。
  • 加权策略:通过样本级别的加权策略,CPPO在策略学习和知识保留之间寻求平衡,避免了传统方法中的遗忘问题。
  • 高效性和稳定性:与PPO相比,CPPO在非持续学习场景中表现出更高的学习效率和稳定性,尤其是在处理高方差和过拟合样本时。

方法

CPPO 的核心思想是通过样本级别的加权策略来平衡策略学习(policy learning)和知识保留(knowledge retention)。具体来说,CPPO 通过以下步骤实现:

  • 样本分类:根据样本的奖励(reward)和生成概率(generation probability),将样本分为五类:高性能样本、过拟合样本、高方差样本、噪声样本和正常样本。
  • 加权策略:为每类样本分配不同的策略学习权重(α)和知识保留权重(β)。例如,对于高性能样本,同时增加α和β以巩固知识;对于噪声样本,降低α和β以减少其对学习的影响。
  • 优化目标:基于上述加权策略,CPPO设计了一个新的优化目标,通过最大化策略学习和知识保留的加权和来优化模型。
  • 权重学习:CPPO提供了两种权重学习方法:启发式方法(heuristic method)和可学习方法(learnable method)。启发式方法根据预定义的规则动态调整权重,而可学习方法则通过优化一个拉格朗日函数来自动学习最佳权重。

3.1 PPO算法

PPO(Proximal Policy Optimization)算法是一种广泛使用的强化学习算法,它通过优化一个剪辑的目标函数来更新策略网络,从而在策略学习过程中保持稳定。PPO 算法的核心思想是通过限制策略更新的幅度来避免过大的策略变化,从而提高训练的稳定性。

PPO 算法的总目标函数可以表示为:

其中:

此外,PPO 算法还引入了熵奖励(entropy bonus)来鼓励策略的探索性:

 

3.2 问题定义

论文提出了一个持续学习人类偏好的任务,该任务在离线持续学习设置下进行。具体来说,任务序列 T={T1​,T2​,…} 包含多个子任务,每个子任务 T_t 都有一个对应的人类偏好数据集 HF_t 和提示数据集 S_t​。对于每个任务 T_t,策略模型\pi _t通过在奖励模型r_t上进行训练来学习人类偏好,其中奖励模型r_t是基于HF_t学习得到的。

任务的最终目标是学习一个策略模型\pi _{\theta },使其在所有已学习的人类偏好上最大化总体奖励:

 3.3 理论分析

在持续学习(Continual Learning, CL)的背景下,关键挑战是如何在学习新任务的同时保留旧任务的知识。这被称为“稳定性-可塑性困境”(stability-plasticity dilemma):一方面,模型需要足够稳定以保留旧知识;另一方面,模型需要足够灵活以适应新知识。

为了优化持续学习中的目标,需要在策略学习(policy learning)和知识保留(knowledge retention)之间找到一个平衡。具体来说,策略学习的目标是最大化模型生成高奖励结果的概率,而知识保留的目标是保留生成高奖励结果的知识

为了优化 CL 范式中的目标函数,关键是平衡策略学习和知识保留之间的权衡,即学习一个不仅适合当前任务 t 的策略\pi _t,而且还保留了先前任务的知识。这通常是通过最大化 πt 的平均奖励来实现的,同时通过基于 KL 的知识蒸馏最小化\pi _t\pi _{t-1}之间的差异:

 在 RLHF 设置中,我们认为实现策略学习的一种更有效的方法是最大化\pi _{\theta }产生高概率的结果的奖励。这是因为 LM 通常具有巨大的动作空间(词汇量),并采用采样策略,例如有利于高概率生成结果的波束搜索。另一方面,对于知识保留,使\pi _{\theta }保留\pi _{t-1}的某些知识以生成高奖励输出而不是全部更重要更为重要。

为了完成上述想法,提出了一个理论上理想的连续RLHF任务T_t目标:

 其中:

由于直接优化上述目标函数在实际中不可行(特别是计算 KL 散度需要存储整个词汇表的概率分布),论文提出了一个简化的目标函数。具体来说,用 L2 距离代替 KL 散度,仅计算真实标记的概率差异,从而大大减少了内存需求。简化后的知识保留损失为:

最终目标函数: 基于上述简化,论文提出了一个实际可操作的目标函数:

 其中:

 3.4 加权策略

利用样本平衡权重 α(x) 和 β(x) 来调节策略学习和知识保留过程,旨在找到知识保留和策略学习之间的平衡。最终目标是:

 对于任务 t = 1, 2,。.., T.接下来,提出了一种平衡策略学习和知识保留的加权策略。

3.5 平衡策略学习和知识保留

这一部分详细介绍了 CPPO 方法中如何通过样本级别的权重 α(x) 和 β(x) 来平衡策略学习(policy learning)和知识保留(knowledge retention)。

分为三个部分:

  • 样本分类:根据样本的奖励 R(x) 和生成概率P_{\pi _\theta }\left ( x \right ),将样本分为五类:高性能样本、过拟合样本、高方差样本、噪声样本和正常样本。
  • 权重策略:为每类样本分配不同的策略学习权重 α(x) 和知识保留权重 β(x),以平衡策略学习和知识保留。
  • 具体计算:通过操作符 F[⋅] 和 G[⋅] 定义样本的分类阈值,并根据分类结果调整权重。

样本分类:为了实现策略学习和知识保留的平衡,首先需要对样本进行分类。根据样本的奖励 R(x) 和生成概率P_{\pi _\theta }\left ( x \right ),将样本分为以下五类:

  • 高性能样本(High-performance samples)P_{\pi _\theta }\left ( x \right )和 R(x) 均较高。这些样本表示旧策略已经能够以高概率生成高奖励的结果。

  • 过拟合样本(Overfitting samples)P_{\pi _\theta }\left ( x \right )高,但 R(x) 低。这些样本表示旧策略可能对某些样本过度拟合,导致生成的结果虽然概率高但奖励低。

  • 高方差样本(High-variance samples)P_{\pi _\theta }\left ( x \right )低,但 R(x) 高。这些样本表示旧策略生成这些结果的概率低,但这些结果的奖励高,表明存在高方差。

  • 噪声样本(Noisy samples)P_{\pi _\theta }\left ( x \right )和 R(x) 均较低。这些样本可能是噪声数据,对学习过程的贡献较小。

  • 正常样本(Normal samples)P_{\pi _\theta }\left ( x \right )或 R(x) 在正常范围内。这些样本不需要特别处理。

权重策略:根据上述分类,为每类样本分配不同的策略学习权重 α(x) 和知识保留权重 β(x)。具体策略如下:

  • 高性能样本:α(x) 和 β(x) 均增加。巩固这些样本的知识,因为它们已经表现良好。

  • 过拟合样本:α(x) 增加,β(x) 减少。通过策略学习减少这些样本的生成概率,同时减少知识保留以避免过拟合。

  • 高方差样本:α(x) 增加,β(x) 减少。通过策略学习增加这些样本的生成概率,同时减少知识保留以降低方差。

  • 噪声样本:α(x) 和 β(x) 均减少。减少这些样本对学习过程的影响,避免过优化。

  • 正常样本:不改变 α(x) 和 β(x)。目的:保持正常的策略学习和知识保留。

权重的具体计算:为了实现上述策略,论文定义了两个操作符:

其中,μ 和 σ 分别表示均值和标准差,k 是超参数,用于控制样本的分类阈值。

具体权重策略如下表所示:

 3.6 如何平衡权重

上述权重策略构成了 α(x) 和 β(x) 的几个不等式约束,如下表所示:

确定平衡权重需要找到一个满足这些约束的可行解决方案。我们提供了两种方法来确定平衡权重,包括启发式权重方法(上表所示)和可学习权重方法。

启发式方法通过预定义的规则动态调整权重 α(x) 和 β(x)。具体来说,根据样本的分类结果,权重会线性增加或减少。这种方法简单且易于实现,但可能缺乏对动态学习过程的适应性。

其中:

启发式权重的表面。当推出样本落在正常区域时,权重等于 1。

可学习方法通过优化一个拉格朗日函数来自动学习最佳权重 α(x) 和 β(x)。这种方法具有更强的适应性,能够根据动态学习过程自动调整权重,使得在满足预定义的约束条件下,策略学习和知识保留之间的平衡达到最优。

为了实现这一目标,论文构造了一个无约束优化目标函数 Lcoef​(ϕ),其中 ϕ 是权重参数。优化目标函数如下:

 其中:sig表示sigmoid函数,ub和lb表示上届和下届,

结论

  1. 实验结果:CPPO在持续学习任务中显著优于现有的CL基线方法,并且在非持续学习任务中也表现出比PPO更高的效率和稳定性。

  2. 稳定性分析:CPPO在训练过程中表现出更好的稳定性,尤其是在处理小模型时,能够有效避免PPO训练中的不稳定性。

  3. 人类评估:通过人类评估,CPPO生成的摘要与人类和ChatGPT生成的摘要相当,但PPO生成的摘要质量较低。

  4. 实际应用:CPPO为实际应用中持续更新语言模型提供了一种高效、稳定且保护数据隐私的方法,具有广泛的应用前景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值