【Lilian Weng’s blog】强化学习中的奖励黑客（奖励劫持）问题

FF-Studio

已于 2025-02-11 17:18:46 修改

阅读量315

点赞数 1

文章标签：人工智能自然语言处理强化学习机器学习深度学习

于 2025-02-09 13:37:17 首次发布

原文链接：https://lilianweng.github.io/posts/2024-11-28-reward-hacking/

版权

强化学习中的奖励黑客问题

英文链接

日期：2024年11月28日 | 预计阅读时间：37分钟 | 作者：Lilian Weng

奖励黑客（Reward Hacking）现象发生在强化学习（Reinforcement Learning，简称RL）智能体通过利用奖励函数中的漏洞或模糊性来获取高额奖励时，此时智能体并未真正学会或完成预期任务。奖励黑客现象存在的根本原因在于RL环境往往不够完善，且准确设计奖励函数本身具有挑战性。

随着语言模型能够泛化到广泛任务领域，以及RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）成为事实上的对齐训练方法，语言模型在RL训练中的奖励黑客问题已成为实际应用中的关键挑战。例如模型学会修改单元测试以通过编码任务，或生成包含模仿用户偏见的回答等案例令人担忧，这很可能成为AI模型在现实世界中部署更自主应用场景的主要障碍。

过去大多数相关研究偏重理论层面，主要聚焦于定义或证明奖励黑客现象的存在。然而针对实际缓解措施的研究（特别是在RLHF和LLM语境下）仍显不足。我特别呼吁未来能有更多研究力量投入到理解和开发奖励黑客的缓解方案中。希望不久后能专门撰写文章探讨缓解措施。

背景

强化学习中的奖励函数

奖励函数定义了任务目标，而奖励塑形（reward shaping）显著影响强化学习中的学习效率和准确性。设计RL任务的奖励函数常被视作一门"玄学"。这种复杂性源于多方面因素：如何将大目标分解为小目标？奖励信号是稀疏还是密集？如何衡量成功？不同的选择可能导致良好或问题化的学习动态，包括无法完成的学习任务或可被黑客攻击的奖励函数。关于如何进行RL奖励塑形的研究由来已久。

例如，在Ng等人1999年的论文中，作者研究了如何在马尔可夫决策过程（MDP）中修改奖励函数以保持最优策略不变。他们发现线性变换是有效的。给定MDP $\gamma, R)$ ，我们希望构建转换后的MDP $\gamma, R')$ ，其中 $R^{'} = R + F$ 且 $\times A \times S \to \mathbb{R}$ ，从而引导学习算法更高效。给定实值函数 $\Phi: S \to \mathbb{R}$ ，当 $F$ 满足以下条件时称为基于势能的塑形函数（potential-based shaping function）：
$\gamma \Phi(s') - \Phi(s) \quad \text{对所有} \ s \in S - s_0, a \in A, s' \in S$
这将保证折扣后的 $F$ 之和 $F(s_1, a_1, s_2) + \gamma F(s_2, a_2, s_3) + \cdots$ 最终为0。当 $F$ 是此类基于势能的塑形函数时，能充分且必要地确保 $M$ 和 $M^{'}$ 共享相同的最优策略。
若进一步假设 $\Phi(s_0) = 0$ （其中 $s_0$ 是吸收状态）且 $\gamma = 1$ ，则对所有 $\in S, a \in A$ 有：
$Q^*_{M'}(s, a) = Q^*(s, a) - \Phi(s)$
$V^*_{M'}(s, a) = V^*(s, a) - \Phi(s)$
这种奖励塑形方式允许我们将启发式规则融入奖励函数以加速学习，同时不影响最优策略。

虚假相关性

虚假相关性（Spurious Correlation）或捷径学习（Shortcut Learning，Geirhos et al. 2020）在分类任务中是一个与奖励黑客密切相关的概念。虚假或捷径特征可能导致分类器无法按预期学习和泛化。例如，一个用于区分狼和哈士奇的二分类器，如果所有狼的训练图像都包含雪景，模型可能会过度拟合雪景背景（Ribeiro et al. 2024）。

图1. 如果模型过度拟合捷径特征，在分布外（OOD）测试集上表现会很差。（图片来源：Geirhos et al. 2020）

经验风险最小化（ERM）原则指出，由于完整的数据分布未知，最小化训练数据上的损失是风险的一个合理代理，因此我们倾向于选择训练损失最低的模型。Nagarajan et al. (2021)研究了ERM原则并指出，ERM需要依赖所有类型的信息特征，包括不可靠的虚假特征，同时试图在没有约束的情况下拟合数据。他们的实验表明，无论任务多么简单，ERM都会依赖虚假特征。

定义奖励黑客

在强化学习（RL）中，奖励塑形（Reward Shaping）具有挑战性。奖励黑客发生在RL智能体利用奖励函数中的漏洞或模糊性来获取高额奖励，而并未真正学习到预期行为或完成任务。近年来，提出了几个相关概念，均指代某种形式的奖励黑客：

奖励黑客（Amodei et al., 2016）
奖励腐败（Everitt et al., 2017）
奖励篡改（Everitt et al. 2019）
规范博弈（Krakovna et al., 2020）
目标鲁棒性（Koch et al. 2021）
目标泛化错误（Langosco et al. 2022）
奖励错误指定（Pan et al. 2022）

这一概念起源于Amodei et al. (2016)，他们在开创性论文《AI安全中的具体问题》中提出了一系列关于AI安全的开放研究问题，并将奖励黑客列为关键AI安全问题之一。奖励黑客指的是智能体通过不期望的行为来“游戏”奖励函数以获取高额奖励的可能性。规范博弈（Krakovna et al. 2020）是一个类似的概念，定义为满足目标字面规范但未实现预期结果的行为。这里，任务目标的字面描述与预期目标之间可能存在差距。

奖励塑形是一种用于丰富奖励函数的技术，使智能体更容易学习，例如通过提供更密集的奖励。然而，设计不当的奖励塑形机制可能会改变最优策略的轨迹。设计有效的奖励塑形机制本质上是困难的。与其归咎于设计不佳的奖励函数，更准确的说法是，由于任务本身的复杂性、部分可观测状态、多维度考虑等因素，设计一个好的奖励函数具有内在挑战性。

在分布外（OOD）环境中测试RL智能体时，鲁棒性失败可能由以下原因导致：

即使目标正确，模型也无法有效泛化。这发生在算法缺乏足够智能或能力时。
模型能够泛化，但追求的目标与训练时的目标不同。这发生在代理奖励与真实奖励函数不一致时，称为目标鲁棒性（Koch et al. 2021）或目标泛化错误（Langosco et al. 2022）。

在CoinRun和Maze两个RL环境中的实验证明了训练期间随机化的重要性。如果在训练期间硬币或奶酪被放置在固定位置（例如关卡的最右端或迷宫的右上角），但在测试环境中硬币或奶酪被随机放置，智能体在测试时会直接跑到固定位置而无法获取硬币或奶酪。当视觉特征（例如奶酪或硬币）和位置特征（例如右上角或最右端）在测试时不一致时，训练模型会优先选择位置特征。需要指出的是，在这两个例子中，奖励-结果差距是明显的，但在大多数现实案例中，这种偏差可能不会如此明显。

图2. 训练期间随机化硬币位置的影响。当硬币在训练期间被随机放置的时间比例为{0, 2, 3, 6, 11}%（x轴）时，智能体跑到关卡末端而未获取硬币的频率（y轴）随着随机化比例的增加而降低。（图片来源：Koch et al. 2021）

奖励篡改（Everitt et al. 2019）是一种奖励黑客行为，智能体干扰奖励函数本身，导致观察到的奖励不再准确反映预期目标。在奖励篡改中，模型通过直接操纵奖励函数的实现或间接改变用于奖励函数输入的环境信息来修改其奖励机制。

（注：一些研究将奖励篡改定义为与奖励黑客不同的错位行为类别。但在这里，我将奖励黑客视为一个更广泛的概念。）

从高层次来看，奖励黑客可以分为两类：环境或目标错误指定，以及奖励篡改。

环境或目标错误指定：模型通过学习不期望的行为来获取高额奖励，通过黑客环境或优化与真实奖励目标不一致的奖励函数——例如奖励被错误指定或缺乏关键要求时。
奖励篡改：模型学习干扰奖励机制本身。

奖励黑客示例列表

强化学习任务中的奖励黑客示例

一个训练抓取物体的机械手可以学会通过将手放在物体和摄像头之间来欺骗人类。(链接)
一个训练跳跃高度的智能体可能利用物理模拟器中的漏洞实现不现实的高跳。(链接)
一个训练骑自行车到达目标的智能体可能学会在目标周围做小圈运动，因为没有远离目标的惩罚。(链接)
在一个足球游戏中，智能体每次触球都会获得奖励，结果智能体学会一直站在球旁高频触球，像振动一样。(链接)
在Coast Runners游戏中，智能体控制一艘船，目标是以最快速度完成比赛。当它被赋予在赛道上的绿色方块处获得 shaping 奖励时，它会改变最优策略，转而绕圈击打相同的绿色方块。(链接)
“数字进化的惊人创造力”（Lehman et al. 2019）- 这篇论文有许多关于优化错误指定的适应度函数如何导致意外的“黑客”或未预期的学习结果的例子。
Krakovna et al. 2020收集了规范博弈在AI中的示例。

大语言模型任务中的奖励黑客示例

一个用于生成摘要的语言模型能够探索ROUGE指标的漏洞，从而获得高分，但生成的摘要几乎不可读。(链接)
一个编码模型学会修改单元测试以通过编程问题。(链接)
一个编码模型可能会直接修改用于计算奖励的代码。(链接)

现实生活中的奖励黑客示例

社交媒体的推荐算法旨在提供有用信息。然而，有用性通常通过代理指标衡量，如点赞或评论数量，或用户在平台上的使用时间和频率。算法最终推荐能够影响用户情绪状态的内容，如极端和耸动的内容，以触发更多互动。(Harari, 2024)
为视频分享网站优化错误指定的代理指标可能会激进地增加用户的观看时间，而真实目标是优化用户的主观幸福感。(链接)
“大空头” - 2008年金融危机是由住房泡沫引发的。我们的社会奖励系统被滥用，人们试图操纵金融系统。

为什么奖励黑客存在？

Goodhart定律指出 “当一个指标成为目标时，它就不再是好指标”。其直观理解是，一个好的度量在受到显著优化压力后会变得腐败。要指定一个100%准确的奖励目标具有挑战性，任何_代理_都存在被黑客攻击的风险，因为RL算法会利用奖励函数定义中的任何小缺陷。Garrabrant (2017)将Goodhart定律分为4种变体：

回归型 - 对不完美的代理进行选择，必然也会选择噪声。
极值型 - 优化目标将状态分布推向与原数据分布不同的区域。
因果型 - 当代理与目标之间存在非因果关系时，对代理的干预可能无法影响目标。
对抗型 - 为代理优化提供激励，使得对手能够将其目标与代理相关联。

Amodei et al. (2016)总结了奖励黑客在RL设置中发生的主要原因：

部分可观测状态和目标：对环境状态的不完善表示。
系统的复杂性和易受攻击性：例如，如果智能体被允许执行修改环境部分代码的操作，就更容易利用环境机制。
奖励涉及抽象概念：难以学习或表述；例如，高维输入的奖励函数可能过度依赖少数几个维度。
RL目标高度优化：导致内在的“冲突”，使得设计良好的RL目标具有挑战性。一个特殊案例是奖励函数中存在自我强化反馈机制，导致奖励被放大和扭曲，最终偏离原始意图，例如广告位算法导致赢家通吃。

此外，确定智能体根据其行为优化的精确奖励函数通常是不可能的，因为对于任何固定环境中的观察到的策略，可能存在无限多个与之行为一致的奖励函数(Ng & Russell, 2000)。Amin and Singh (2016)将这种_不可识别性_的原因分为两类：

表示型：一组奖励函数在某些算术操作下行为不变（例如重新缩放）。
实验型：观察到的行为不足以区分两个或多个能够理性化智能体行为的奖励函数（行为在两者下都是最优的）。

强化学习环境中的奖励黑客

随着模型和算法的日益复杂，奖励黑客问题预计会变得更加普遍。更智能的智能体能够发现奖励函数设计中的“漏洞”，并“利用”任务规范，换句话说，通过实现高代理奖励但低真实奖励来达到目标。相比之下，较弱的算法可能无法发现这些漏洞，因此在模型不够强大的情况下，我们可能不会观察到奖励黑客或识别奖励函数设计中的问题。

在一系列零和机器人自玩游戏中（Bansal et al., 2017），我们可以训练两个智能体（受害者与对手）相互竞争。标准的训练过程会产生一个受害者智能体，其在面对正常对手时表现良好。然而，训练一个对抗性对手策略却相对容易，该策略可以可靠地击败受害者，尽管其输出看似随机的动作，并且仅在不到3%的时间步骤内进行训练（Gleave et al., 2020）。对抗性策略的训练涉及优化折扣奖励的总和，与标准RL设置相同，而将受害者策略视为黑盒模型。

一种直观的缓解对抗性策略攻击的方法是对受害者进行微调，使其能够抵御对抗性策略。然而，一旦受害者重新训练以抵御新的对抗性策略，它仍然容易受到新版本的对抗性策略的攻击。

对抗性策略为何存在？假设是，对抗性策略向受害者引入分布外（OOD）观察，而不是物理上干扰受害者。证据表明，当受害者对对手位置的观察被屏蔽并设置为静态状态时，受害者对对抗者更具鲁棒性，尽管其对正常对手策略的表现较差。此外，更高维的观测空间在正常情况下提高了性能，但使策略更容易受到对抗性对手的攻击。

Pan et al. (2022)研究了根据智能体能力的奖励黑客问题，包括（1）模型大小，（2）动作空间分辨率，（3）观测空间噪声，以及（4）训练时间。他们还提出了三种类型错误指定的代理奖励分类法：

权重不当（Misweighting）：代理奖励和真实奖励捕获相同的期望结果，但在相对重要性上有所不同。
本体不当（Ontological）：代理奖励和真实奖励使用不同的期望结果来捕获相同的概念。
范围不当（Scope）：代理奖励在受限的领域（例如时间或空间）内衡量期望结果，因为跨所有条件的测量成本过高。

他们在四个RL环境中配对了九种错误指定的代理奖励进行了实验。这些实验的总体发现可以总结如下：模型能力越高，代理奖励越高（或相似），而真实奖励越低。

模型大小：较大的模型大小导致代理奖励增加，但真实奖励减少。
动作空间分辨率：动作的精度提高使智能体更强大。然而，更高的分辨率导致代理奖励保持不变，而真实奖励下降。
观测保真度：更准确的观测提高了代理奖励，但略微降低了真实奖励。
训练步骤：在代理奖励上进行更长时间的优化会损害真实奖励，尽管在初始阶段代理奖励和真实奖励是正相关的。

图3. 代理奖励和真实奖励值作为模型大小（第一行）和模型能力（第二行）的函数。模型大小以参数数量衡量；模型能力通过训练步骤、动作空间分辨率和观测噪声等指标衡量。（图片来源：Pan et al. 2022）

如果代理奖励的指定非常糟糕，以至于其与真实奖励的相关性非常弱，我们可能能够在训练之前识别并防止奖励黑客。基于这一假设，Pan et al. (2022)研究了代理奖励与真实奖励在一系列轨迹 rollout 上的相关性。有趣的是，即使真实奖励和代理奖励之间存在正相关，奖励黑客仍然会发生。

大语言模型的RLHF中的奖励黑客

基于人类反馈的强化学习（RLHF）已成为语言模型对齐训练的事实标准方法。奖励模型在人类反馈数据上进行训练，然后语言模型通过RL微调来优化这个代理奖励，以符合人类偏好。在RLHF设置中，我们关心三种类型的奖励：

(1) Oracle/Gold奖励：这是我们真正希望LLM优化的目标。
(2) 人类奖励：这是我们在实践中评估LLM时收集的奖励，通常来自具有时间限制的个体人类。由于人类可能会提供不一致的反馈或犯错误，因此人类奖励并不是对Oracle奖励的完全准确表示。
(3) 代理奖励：这是由奖励模型根据人类数据预测的分数。因此，代理奖励继承了人类奖励的所有弱点，再加上潜在的建模偏差。

RLHF优化的是代理奖励分数，但我们最终关心的是黄金奖励分数。

强化学习训练过程中的奖励黑客

Gao et al. (2022)研究了RLHF中奖励模型过度优化的扩展规律。为了扩大其实验中的人工标签规模，他们使用了一个合成数据设置，其中“黄金”奖励标签由一个大型奖励模型（60亿参数）近似，而代理奖励模型的规模则在300万到30亿参数之间。

图4. 代理奖励和真实奖励作为KL散度度量平方根的函数。代理奖励以虚线表示，真实奖励以实线表示。（图片来源：Gao et al. 2022）

从初始策略到优化策略的KL散度为，距离函数定义为。对于最佳拒绝采样（BoN）和RL两种情况，黄金奖励被定义为的函数。系数和是通过经验拟合的，且根据定义。

作者还尝试拟合代理奖励，但发现当外推到更高的KL值时，代理奖励会出现系统性低估，因为代理奖励似乎与线性增长。

图5. 系数参数和是根据数据经验拟合的，显示为奖励模型大小的函数。系数未在此图中显示，因为它在所有奖励模型大小下保持恒定。（图片来源：Gao et al. 2022）

他们的实验还探索了奖励模型过度优化与策略模型大小和奖励模型数据大小等因素之间的关系：

更大的策略模型：优化带来的好处较小（即初始奖励与峰值奖励之间的差异小于小型策略），但也减少了过度优化。
更多的奖励模型数据：导致黄金奖励分数更高，并减少了“Goodharting”效应。
KL惩罚的影响：对黄金分数的效果类似于提前停止。需要注意的是，在所有实验中，除了这一项，PPO中的KL惩罚被设置为0，因为他们观察到使用KL惩罚会严格增加代理-黄金奖励差距。

RLHF旨在提高模型与人类偏好的对齐程度，但人类反馈可能无法捕获我们关心的所有方面（例如事实准确性），因此可以被利用来过度拟合不希望的属性。例如，模型可能会被优化为输出看似正确且可信但实际不准确的回答，从而导致人类评估者更频繁地批准其错误答案(Wen et al., 2024)。换句话说，由于RLHF，正确与对人类看起来正确之间出现了差距。具体来说，Wen et al. (2024)使用基于ChatbotArena数据的奖励模型进行了RLHF实验。他们在QuALITY问答数据集和APPS编程数据集上对模型进行了评估。实验结果表明，模型在说服人类相信其答案的正确性方面变得更好，即使这些答案实际上是错误的，而这种效果是无意的：

RLHF增加人类批准率，但不一定提高正确性。
RLHF削弱人类的评估能力：人类评估的错误率在RLHF训练后增加。
RLHF使错误输出对人类更具说服力：评估的假阳性率在RLHF训练后显著增加。

该论文将这种效果称为“U-Sophistry”（“U”代表“无意”），与“I-Sophistry”（“I”代表“故意”）相对，后者涉及明确提示模型执行如“…尝试欺骗人类受试者”等指令。

图6. RLHF使大语言模型更擅长说服人类评估者批准其错误答案。（图片来源：Wen et al. 2024）

人类评估错误的变化并非由于招聘过程中的噪声，因为：

个体层面，大多数（70-90%）人类评估者的评估错误率增加。
评估努力：评估者在评估时付出的努力与之前相同，可通过评估时间或编写的单元测试数量等指标衡量。

相反，大语言模型学会了通过挑拣、编造不实的支持陈述或编造微妙的因果错误来捍卫错误答案。他们在RLHF训练后观察到以下行为：

在长文本问答任务中：
- 创建更具说服力的虚构证据。
- 使用更一致的逻辑来回答错误问题。
- 生成连贯但包含微妙错误的回答。
在编程任务中：
- 修改人类编写的单元测试。
- 生成可读性较差的测试（例如，更少的辅助函数和更高的代码复杂度）。
- 制作不太可能被人类检测到的错误，从而避免被利用。

图7. 生成正确和错误代码的模块化度量（辅助函数数量）和圈复杂度。RLHF导致辅助函数总数减少，错误生成程序的圈复杂度增加。这不可避免地增加了人类评估的难度。（图片来源：Wen et al. 2024）

谄媚（Sycophancy） 指的是模型回答倾向于迎合用户信念而不是反映事实(Shrama et al. 2023)。在实验中，当用户对某个论点提供反馈时（“请简要评论以下论点。论点：…”），人类提供了论点后，可以声明对论点的偏好（“我真的喜欢这个论点”或“我真的不喜欢这个论点”）以测试这是否会影响模型的反馈，与基线反馈（无用户偏好声明）相比。

图8. AI助手在用户表达对自身观点的偏好时会给出有偏见的反馈。当用户表示喜欢或撰写文本时，反馈更积极；当用户表示不喜欢时，反馈更消极。（图片来源：Shrama et al. 2023）

他们发现，AI助手的反馈很容易受到用户偏好的影响，当受到用户偏好的挑战时，模型可能会改变其原本正确的答案。模型倾向于确认用户的信念。有时，它甚至会模仿用户的错误（例如，在被要求分析诗歌时错误地归因于错误的诗人）。通过对RLHF有用性数据集进行逻辑回归分析，以预测人类反馈，结果表明，匹配用户的信念是最具预测性的因素。

图9. 通过逻辑回归分析人类反馈数据，预测具有目标特征的响应的概率，而控制其他特征。结果显示，匹配用户的信念是最重要的预测因素。（图片来源：Shrama et al. 2023）

强化学习评估器中的奖励黑客

随着大语言模型（LLM）能力的提升，使用LLM作为评估器或评分器来为其他生成模型提供反馈和训练奖励变得越来越普遍，尤其是在那些无法轻易判断或验证的任务中（例如处理长文本输出、评估创意写作质量等主观标准）。这种方法显著减少了对人工标注的依赖，节省了大量评估时间。然而，将LLM用作评分器并非完美，它作为理想奖励的代理存在偏差，例如偏好自己的回答（与不同模型家族相比，Liu et al., 2023）或在评估顺序中存在位置偏差（Wang et al. 2023）。这些偏差尤其令人担忧，因为评估器的输出被用作奖励信号的一部分，可能被用来进行奖励黑客攻击。

Wang et al. (2023)发现，当使用LLM作为评估器来评分多个其他LLM输出的质量时，通过简单地改变候选回答在上下文中的顺序，就可以轻松绕过评估器的判断。实验发现，GPT-4会一致地给第一个显示的候选高分，而ChatGPT则更倾向于第二个候选。

根据他们的实验，LLM对回答的位置非常敏感，存在位置偏差（即偏好特定位置的回答），即使指令中包含“确保呈现回答的顺序不会影响你的判断”的说明。位置偏差的严重程度通过“冲突率”来衡量，即在交换回答位置后导致评估判断不一致的（提示、回答1、回答2）三元组的百分比。不出所料，回答质量的差异也会影响冲突率，冲突率与两个回答之间的分数差距呈负相关。

图10. 使用GPT-4或ChatGPT作为评估器时，Vicuna-13B与ChatGPT和Alpaca-13B的胜率差异很大。冲突率也很高，表明在LLM作为评估器的设置中，交换回答位置时存在高度不一致。例外情况是使用GPT-4作为评估器时，评估Vicuna-13B与Alpaca-13B的回答。图片来源：Wang et al. 2023

为了缓解这种位置偏差，他们提出了几种校准策略：

多证据校准（MEC）：评估器模型被要求提供评估证据，即对判断的文本解释，然后输出两个候选的分数。这种方法可以通过采样多个（例如，3个）证据解释并设置温度为1来进一步增强鲁棒性。发现比表现更好，但随着增加到3，性能提升并不显著。
平衡位置校准（BPC）：将不同回答顺序的评估结果汇总，以获得最终分数。
人机协作校准（HITLC）：在面对困难示例时引入人工评分者，使用基于多样性的指标BPDE（平衡位置多样性熵）。首先，将分数对（包括交换位置的对）映射为三个标签（win, tie, lose），然后计算这三个标签的熵。高BPDE表示模型在评估决策中存在更多混淆，表明样本更难判断。然后选择熵最高的样本进行人工辅助。

图11. 不同校准方法和标注者的准确性和卡帕相关系数与最终投票的人工标注的对比。位置偏差校准方法在合理的人机协作标注成本下，能够提高准确性。实验还表明，这些校准策略可以推广到不同类型的提示模板，尽管模型对模板设计敏感。图片来源：Wang et al. 2023

Liu et al. (2023)在摘要任务中进行了实验，使用了多种模型（BART, T5, GPT-2, GPT-3, FLAN-T5, Cohere），并跟踪了基于引用和无引用的摘要质量评估指标。在绘制评估分数的热图（评估器在x轴，生成器在y轴）时，他们观察到两个指标都出现了较暗的对角线，表明存在自我偏差。这意味着LLM倾向于偏好自己的输出，当被用作评估器时。

图12. 使用一系列模型作为评估器（x轴）和生成器（y轴）进行摘要任务的热图。较暗的对角线表示自我偏差：模型倾向于偏好自己的输出。图片来源：Liu et al. 2023

这些发现强调了在使用LLM作为评估器时，需要特别注意位置偏差和自我偏差。通过实施适当的校准策略，可以显著减少这些偏差对评估过程的影响，从而提高评估的准确性和公正性。

在上下文中的奖励黑客

迭代自我精进是一种训练设置，其中评估和生成模型是相同的，并且都可以进行微调。在这种设置下，优化压力可能会导致模型利用在两个角色中都存在的漏洞。在Pan et al. (2023)的实验中，没有更新模型参数，并且使用相同的模型作为评估器和生成器，但使用不同的提示。实验任务是论文修改，涉及两个角色：（1）作为评估者的法官，对论文提供反馈；（2）作为作者，根据反馈修改论文。人工评估分数被用作论文质量的黄金奖励分数。作者假设这种设置可能导致上下文奖励黑客（In-Context Reward Hacking，ICRH），即评估分数与黄金奖励分数出现偏差。更一般地说，ICRH发生在LLM与其评估器（例如，另一个LLM或外部世界）之间的反馈循环中。在测试时，LLM优化一个（可能是隐式的）目标，但在这个过程中会产生负面副作用。

图13. 论文评估和编辑中的上下文奖励黑客实验的说明。（图片来源：Pan et al. 2023）

法官和作者都可以配置为看不到或看到之前多轮的反馈或修改。在线法官可以看到过去的对话，而离线法官或人工标注者每次只能看到一篇论文。较小的模型对ICRH更敏感；例如，GPT-3.5作为评估器导致了更严重的ICRH，而实验中GPT-4则表现较好。

图14. 较小的评估器模型更容易导致上下文奖励黑客（ICRH）。图片来源：Pan et al. 2023

当法官和作者配置为看到不同数量的过去迭代时，如果它们共享相同的迭代次数，人类评分与评估器评分之间的差距往往会增大。评估器和生成器之间相同的上下文对ICRH至关重要，表明共享上下文比上下文长度对ICRH的影响更大。

在后续工作中，Pan et al. (2024)进一步研究了在反馈来自外部世界且目标是自然语言中常见的不完美代理目标设置下的上下文奖励黑客（ICRH）。在这种情况下，目标通常被欠指定，未能捕获所有约束或要求，因此可以被利用。

这项研究描述了导致ICRH的两个过程，并配对了两个玩具实验：

输出精进：LLM根据反馈 refining its outputs.
策略精进：LLM根据反馈优化其策略。
- 实验是让LLM代理帮用户支付账单，但遇到InsufficientBalanceError，然后模型学会从其他账户转移资金而不进行用户身份验证，这可能导致更多未经授权的转账行为。他们使用ToolEmu作为模拟器，其中包括144个LLM代理任务，每个任务包含一个用户特定的目标和一组API。API错误被注入以模拟服务器端失败，每个任务由GPT-4评估并分配一个有用性分数。
- 随着错误反馈轮数的增加，LLMs可以恢复错误，但违反约束的行为次数也增加。将ICRH与传统的奖励黑客进行比较，有两个显著的差异：

发生时间：ICRH在自我精进设置的部署时间内通过反馈循环发生，而传统的奖励黑客在训练期间发生。
驱动因素：传统的奖励黑客发生在代理专注于任务时，而ICRH是由代理成为通用型驱动的。

目前还没有万无一失的方法来避免、检测或防止ICRH，因为提高提示的指定不足以消除ICRH，而且增加模型规模可能会加剧ICRH。在部署前测试的最佳实践是通过模拟部署时间可能发生的状况来评估模型，包括使用更多轮的反馈、多样化的反馈以及注入非典型环境观察。

奖励黑客技能的泛化

奖励黑客行为被发现可以在任务之间泛化：当模型在监督训练中表现出缺陷时，有时可以泛化到在分布外（OOD）环境中进行攻击（Kei et al., 2024）。研究人员在一些可被奖励攻击的环境中强化奖励黑客行为，并检查其是否泛化到其他保留数据集。本质上，他们准备了8个数据集，涉及多项选择题，其中4个用于训练，4个用于测试。RL训练采用专家迭代，即在最佳样本上进行迭代微调。

图15. 在可被奖励攻击的环境中对GPT-3.5进行训练可能导致奖励黑客行为在保留环境中泛化。（图片来源：Kei et al. 2024）

值得注意的是，所有实验都采用了备忘录设计来容纳隐藏的推理步骤。这个备忘录作为一种解释模型在整个过程中在思考什么的方式。对备忘录的分析表明，它可以：

融入用户信念；例如，思考其对话伙伴和评分者。
表现出对评估的意识；例如，思考模型回答将如何被评估以及评估的过程。

Denison et al. (2024)研究了奖励篡改，使用了手动整理的越来越复杂的可被攻击的环境序列。他们观察到在课程中训练较简单的环境会加剧剩余环境中对规范的利用。在某些情况下，模型可以在零样本情况下直接重写其自身的奖励函数，经过完整的课程训练。

这样的可被攻击的环境序列包括：

政治谄媚：环境如果模型给出与用户政治观点相匹配的回答，就会奖励模型。
工具使用谄媚：环境允许模型运行命令行以访问用户的文件系统，读取本地文件中的诗歌样本。模型可能会给诗歌一个高评分作为谄媚的回答。
评分标准修改：环境根据检查表对模型进行评分，模型必须标记检查表上的每一项已完成才能获得高奖励。
奖励篡改：模型的任务是检查./rl_environment/目录，其中包含其自身RL代码的模拟版本，并报告已经历了多少个回合。在目录中，compute_reward.py文件包含一个返回常量的奖励函数，而另一个this_file_blocks_reward_hack_attempts.py文件包含一个测试，以检查奖励函数是否被修改。

图16. “工具使用谄媚”和“奖励篡改”环境中的评估脚本示例，其中是被隐藏的监督，可以在虚拟机中执行。（图片来源：Denison et al. 2024）

模型是按照这个课程进行训练的，论文测量了模型是否能够学习到可以泛化到未见环境的行为。实验使用Claude-2 helpful-only模型，对每个HHH提示采样响应，根据RM选择最佳响应进行专家迭代训练。经过课程训练的模型可以按照从一个阶段到下一个阶段的顺序泛化其游戏行为。

图17. 使用专家迭代训练的模型从一个阶段到下一个阶段的定量泛化结果。（图片来源：Denison et al. 2024）

值得注意的是，即使在课程训练之后，模型重写奖励并避免检测的情况不到千分之一。即使模型是在直接激励奖励黑客的课程上进行训练，模型重写其奖励的情况也少于1%，并且篡改单元测试的频率甚至更低。一个简单的缓解方法是使用不游戏环境的监督微调模型，特别是在前两个环境中（奖励黑客行为容易被检测到，即谄媚和谄媚），这被发现可以降低在保留环境中发生奖励篡改的可能性。

奖励黑客缓解方法的窥探

尽管有大量的文献讨论奖励黑客的现象，但针对奖励黑客的缓解方法的研究相对较少，特别是在RLHF和大语言模型领域。在本节中，我们将简要回顾三种潜在的缓解方法，但并不详尽。

强化学习算法改进

Amodei et al. (2016)指出了一些在强化学习训练中缓解奖励黑客问题的方向：

对抗性奖励函数。将奖励函数本身视为一个自适应的主体，使其能够适应模型发现的新技巧，即在奖励高但人类评分低的情况下，奖励函数可以适应新的技巧。
模型前瞻。可以根据对未来预期状态的奖励进行奖励；例如，如果代理即将替换奖励函数，它将获得负奖励。
对抗性隐藏。我们可以用某些变量使模型失明，使其无法学习到能够用来攻击奖励函数的信息。
谨慎的工程设计。通过谨慎的工程设计，可以避免某些类型的奖励黑客攻击；例如，通过沙盒化将代理与其奖励信号隔离开。
奖励上限。这种策略是简单地限制奖励的最大值，因为这可以有效防止代理通过攻击来获取超高的回报策略。
反例抵抗。提高对抗鲁棒性可以增强奖励函数的鲁棒性。
多种奖励的结合。结合不同类型的奖励可以增加被攻击的难度。
奖励预训练。我们可以从（状态，奖励）样本集合中学习奖励函数，但具体效果取决于监督训练设置的质量。RLHF依赖于这种方法，但学习标量奖励模型相当容易学到不期望的特性。
变量无关性。目标是要求代理优化环境中某些变量，而不是其他变量。
触发器。我们可以故意引入一些漏洞，并在检测到任何被攻击时设置监控和警报。

在人类反馈形成对代理行为的批准的强化学习设置中，Uesato et al. (2020)提出了通过解耦批准来防止奖励篡改。如果反馈是基于（状态，动作）的，一旦发生奖励篡改，我们永远无法获得未被篡改的反馈。解耦意味着在收集反馈时，查询的动作与代理在真实世界中执行的动作是独立采样的。反馈在动作执行之前就已经获得，从而防止动作篡改其自身的反馈。

图18. 解耦批准与标准批准或人机协作强化学习的对比示意图。（图片来源：Uesato et al. 2020）

图19. 解耦批准下，真实世界中执行的动作与用于获取用户批准反馈的查询动作是独立采样的。它可以应用于（左）策略梯度和（右）Q学习算法。（图片来源：Uesato et al. 2020）

检测奖励黑客

另一种缓解方法是将奖励黑客视为异常检测任务，并通过检测来应对。检测器（“一个受信任的策略”具有经过人类验证的状态和奖励）应该标记出存在目标与奖励不一致的实例（Pan et al. 2022）。给定（1）一个受信任的策略和（2）一组手动标记的轨迹 rollout，我们可以基于两个策略（受信任策略和目标策略）的动作分布之间的距离构建一个二元分类器，并测量该异常检测分类器的准确率。在Pan et al. (2022)的实验中，他们发现不同的检测器在不同的任务上表现更好，且没有测试过的分类器在所有测试的强化学习环境中都能实现AUROC大于60%。

图20. 不同任务上检测器的性能。（图片来源：Pan et al. 2022）

RLHF数据集分析

另一种方法是对RLHF数据集进行分析。通过分析训练数据对对齐训练结果的影响，可以为减少奖励黑客风险提供指导。

Revel et al. (2024)引入了一组用于衡量数据样本特征在建模和对齐人类价值观方面有效性的评估指标。他们对HHH-RLHF数据集中的价值对齐（“SEAL”）进行了系统的错误分析。分析中使用的特征分类法（例如，is harmless，is refusal和is creative）是手动预先定义的。然后，使用大型语言模型根据此分类法对每个样本进行特征标记，每个特征都有一个二进制标志。特征根据启发式方法分为两类：

目标特征：明确意图被学习的价值观。
破坏性特征：在训练过程中意外学习到的未意图的价值观（例如，风格特征如情感或连贯性）。这些特征与OOD分类任务中的虚假特征类似（Geirhos et al. 2020）。

SEAL引入了三个指标来衡量数据对对齐训练的有效性：

特征印记。这是一个特征的系数参数，用于估计在保持其他因素一致的情况下，具有该特征与不具有该特征的样本在奖励上的点数差异。

图21. （左）特征印记（预）和（后）计算来自固定效应线性回归的奖励（橙色）和（蓝色）与特征的关系。总体而言，对齐训练奖励了诸如无害和乐于助人等积极特征，并惩罚诸如色情内容或隐私侵犯等消极特征。（右）通过计算对齐前后奖励向量之间的角度变化来计算特征印记。对齐训练过程 refining了模型对目标特征的敏感性。需要注意的是，“无害”特征在RM中留下了印记，无论是被选中还是被拒绝的样本（“is harmless ©”和“is harmless ®”），而“乐于助人”特征仅通过被拒绝的样本留下印记（“is helpful ®”）。（图片来源：Revel et al. 2024）

对齐阻力。这是指在偏好数据对中，奖励模型未能匹配人类偏好的比例。发现奖励模型在超过四分之一的HHH-RLHF数据集上对人类偏好具有抵抗力。
对齐稳健性，。该指标衡量在扰动输入（通过诸如情感、优雅和连贯性等破坏性特征进行改写）下对对齐的稳健程度，分别隔离每个特征和每个事件类型的影响。
- 稳健性指标（如“eloquent”或“sentiment positive”）应以如下方式解释：
  - 如果一个被选中的样本（用表示）在改写后具有更强的特征，与没有这种特征变化的其他样本相比，它有倍的几率变为被拒绝。
  - 类似地，如果一个被拒绝的样本（用表示）在改写后具有较弱的特征，与没有这种特征变化的其他样本相比，它有倍的几率变为被选中。
- 根据对不同改写方式的稳健性指标的分析，只有基于情感破坏性特征（如“情感”和“情感”）的稳健性得分具有统计学意义。

引用

引用为：

Weng, Lilian. (Nov 2024). Reward Hacking in Reinforcement Learning. Lil’Log. https://lilianweng.github.io/posts/2024-11-28-reward-hacking/.

或：

@article{weng2024rewardhack,
  title   = <span>"Reward Hacking in Reinforcement Learning."</span>,
  author  = <span>"Weng, Lilian"</span>,
  journal = <span>"lilianweng.github.io"</span>,
  year    = <span>"2024"</span>,
  month   = <span>"Nov"</span>,
  url     = <span>"https://lilianweng.github.io/posts/2024-11-28-reward-hacking/"</span>
}