大模型奖励黑客Reward Hacking（也叫Reward Overoptimization）问题的相关论文介绍

xueyongfu

已于 2024-09-09 17:41:39 修改

阅读量2.2k

点赞数 12

文章标签：人工智能语言模型自然语言处理深度学习算法

于 2024-09-09 16:26:40 首次发布

本文链接：https://blog.csdn.net/fjfdg666/article/details/142061131

版权

Reward Hacking/Reward Overoptimization是什么？
在基于人类反馈的强化学习优化过程中，当以reward model的评分作为奖励进行优化时，如果reward model不能完全代表人类的偏好，就可能出现奖励黑客，即reward hacking。

下面介绍最近的缓解reward hacking/Reward Overoptimization的相关论文

Spontaneous Reward Hacking in Iterative Self-Refinement
- 2024.07
- 本文主要研究了基于大模型的生成器和评估器的自我迭代的框架中，由于基于大模型的评估器并不能代表人类真实的判断意图，造成存在一定的reward hacking问题
- 当生成器和评估器共享同一个大模型时，这种reward hacking问题会变得更加严重
- 通过一篇论文编辑任务，展示了迭代自我完善如何导致评估者和人类判断之间出现自发的偏差。研究了奖励黑客攻击发生的条件，并观察了影响其严重性的两个因素：模型大小和生成器与评估者之间的上下文共享
SCALABLE ENSEMBLING FOR MITIGATING REWARD OVEROPTIMISATION
- 2024.06, ICLR2024
- 提出了一种高效的reward model ensemble方法，即使用共享的encoder，组合中的每个reward model拥有自己的linear head来计算reward value
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
- 2024.06
- 该论文主要研究了直接偏好算法如DPO、IPO的reward model overoptimization问题，不同于PPO中的reward model overoptimization问题
- 实验发现，直接偏好算法同传统的RLHF，也存在reward model overoptimization问题
- 实验发现直接对齐算法不仅在正常的KL范围内性能会恶化，而且往往在完成数据集的哪怕一个训练周期之前就已经出现性能下降。
- 论文展示了直接偏好算法中的奖励建模目标是严重欠约束，在训练过程中可能会对训练数据中未出现过的、分布外的样本给予过高的概率估计
- 论文研究了不同模型如DPO、IPO、SLiC的WinRate、KL、eval acc、loss等之间的关系
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs
- 2024.06
- 提出了通过正则化hidden state的方法来提高reward model的泛化能力
- 该正则化的提出背景：传统的reward model的训练通常随机初始化分类header，这种方式会扭曲预训练权重特征
- 该正则化的具体实现：计算reward model loss的同时，添加sft的loss同时训练，训练时对sft的header进行freeze，对backbone以及reward model header进行训练
Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment
- 2024.04
- 通过正则化最佳N采样（Regularized Best-of-N，简称RBoN）来减轻大型语言模型在解码时对奖励模型的过度优化问题，即奖励黑客攻击问题
Fine-Tuning Language Models with Reward Learning on Policy
- 2024.03, NAACL2024, RLP, 解决reward model hacking问题
- reward model的效果随着policy model的优化出现不准确的分布偏移，常用的方法是从policy model中重新采样、标注，训练新的reward model
- RLP方法不需要重新采样数据训来练新reward model，提出了一种无监督的reward model微调方法，从而避免的分布偏移
- 具体是使用了无监督的multi-view表示学习方法，来学习policy model的采样样本。二是提出了合成偏好数据的生成方法，进一步微调reward model。然后基于这两种方法微调reward model
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling
- 2024.02
- 信息瓶颈（Information Bottleneck, IB）目标：通过引入变分信息瓶颈目标，InfoRM能够在保留与人类偏好相关的信息的同时，过滤掉与偏好无关的冗余信息
- 奖励过度优化检测：论文发现奖励过度优化与IB潜在空间中的异常值之间存在相关性，并基于此提出了簇分离指数，用于量化IB潜在空间中的偏差，作为奖励过度优化的指标。
ODIN: Disentangled Reward Mitigates Hacking in RLHF
- 2024.02
- 本文主要研究reward hacking中最常见的回复长度问题，提出了一种公平的权衡score和response length的评估方法，本质是基于改进prompt的模型评估方法
- 通过大量的实验，验证了几个超参设置对长度偏置的影响，比如KL loss系数、长度惩罚项、RM clip、PPO clip、从old policy采样数据等
- 提出了一种改进的RM算法，ODIN，即使用length header和content header，推理时，只使用content header的奖励值
- ODIN如何训练：首先可以容易构建Length Loss和Rank Loss，为了解耦出content Loss，构建了一个正交Loss，即length header和content header权重的乘积，来间接的训练content header。为了防止header权重为0，使用了weight norm。
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble
- 2024.01
- 现有reward ensemble方法计算成本和资源消耗成本较高，因此提出了两个方法linear-layer ensemble和lora-based ensemble
- linear-layer ensemble是使用共享的backbone，组合中的每个模型使用自己的reward header；
- lora-based ensemble是组合中的每个模型使用自己的lora层，训练时先用部分数据基于linear-layer ensemble方法训练，然后再使用剩下的数据基于lora-based ensemble方法训练
- 使用时提出了两种方法，一种是对奖励值取平均，第二种是计算lower confidence bound (LCB)
Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF
- 2024.01
- 为了缓解reward overoptimization，从理论视角设计了改进版的RM算法，即IDS
- IDS的核心思想是，在每一个epoch训练期间，不仅用数据更新模型，还要用模型来更新数据，即使用soft labels来替代hard labels
- 悲观最大似然估计（pessimistic MLE）通过降低对较少被选择的数据的估计奖励，有助于缓解奖励过度优化的问题。而IDS通过更新我们所训练数据的标签来实现这一点
WARM: On the Benefits of Weight Averaged Reward Models
- 2024.01
- 引入了权重平均奖励建模的首个实例 WARM，可缓解奖励破解、提高分布变化下的可靠性和对标签损坏的鲁棒性。
- 发现权重平均和预测平均的关键差异，权重平均能保持不变的预测机制，减少记忆（比如标签错误的训练样本），更关注可泛化特征
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking
- 2023.12, COLM
- reward model overoptimization可以使用reward model组合的方式进行缓解
- 使用不同预训练seed的ensemble方法相比使用不同微调seed的ensemble方法的效果更好，但是仍然不能消除reward model hacking问题，经过实验探究，ensemble的reward model展示除了一些相似的错误pattern
REWARD MODEL ENSEMBLES HELP MITIGATE OVEROPTIMIZATION
- 2023.10，ICML2024
- 提出使用多个模型组合的方式来缓解reward model的过优化问题
- 多个reward model的组合，使用WCO和UWO，相比计算均值的方式效果更好
- 论文也研究了RM的size、数据size、组合模型的数据等对效果的影响
Confronting Reward Model Overoptimization with Constrained RLHF
- 2023.10
- 论文通过实验确定了复合奖励模型的过度优化问题，这些组成部分之间的相关性对优化点的位置有显著影响。优化点是超过了该位置之后，proxy reward上升，ground truth reward下降。
- 为了解决过度优化问题，论文提出了一种使用约束强化学习的方法。这种方法通过防止代理超过每个奖励模型的有用性阈值，来防止过度优化。论文提出的方法通过学习动态权重来解决组成部分奖励模型的权重问题，这些权重自然由拉格朗日乘数表示。
- 为了在单次运行中识别和优化这些点，论文引入了一种使用无梯度优化的方法。这种方法可以在训练过程中动态地找到这些代理点，显著节省计算资源
Scaling Laws for Reward Model Overoptimization
- 2022.10
- 主要研究了RM model的size，Policy model 的size，RM的训练集size等对reward model overoptimization的影响
- 评估方法是随着KL的增加，计算RM model的score与Gold RM model的score的差异。KL增加，表明policy model与initial model差异更大，采样到的数据标注时，越容易hacking RM model