LilianWeng最新博客翻译：强化学习中的奖励黑客

最新推荐文章于 2025-03-23 10:48:41 发布

hehedadaq

最新推荐文章于 2025-03-23 10:48:41 发布

阅读量584

点赞数 1

分类专栏：论文阅读笔记文章标签：论文阅读人工智能

原文链接：https://lilianweng.github.io/posts/2024-11-28-reward-hacking

版权

论文阅读笔记专栏收录该内容

23 篇文章

订阅专栏

强化学习中的奖励黑客

原帖：https://lilianweng.github.io/posts/2024-11-28-reward-hacking

日期：2024年11月28日 | 预计阅读时间：37分钟 | 作者：Lilian Weng

奖励黑客（Reward hacking）是指强化学习（RL）代理通过利用奖励函数中的漏洞或歧义来获得高奖励，而没有真正学习或完成预期任务的行为。奖励黑客的存在是因为RL环境通常并不完美，而且准确指定奖励函数在根本上具有挑战性。

随着语言模型（Language Models，LMs）在广泛任务上的泛化，以及RLHF（Reinforcement Learning from Human Feedback）成为对齐训练的事实标准，语言模型的RLHF训练中的奖励黑客已成为一个关键的实际挑战。模型在完成编程任务时学习修改单元测试，或者在响应中包含迎合用户偏好的偏见，这些行为令人担忧，很可能是AI模型在更自主用例的现实世界部署中的主要障碍之一。

过去关于这个主题的大多数工作都相当理论化，主要集中在定义或展示奖励黑客的存在。然而，对于实际的缓解措施的研究，特别是在RLHF和大型语言模型（LLMs）的背景下，仍然有限。我尤其想呼吁未来的研究努力，致力于理解和开发对奖励黑客的缓解措施。希望我能在后续的专文中涵盖缓解部分。

背景

RL中的奖励函数

奖励函数定义了任务，在强化学习中，奖励塑形（Reward shaping）对学习效率和准确性有显著影响。为RL任务设计奖励函数常常感觉像是一门“黑暗艺术”。许多因素导致了这种复杂性：你如何将大目标分解为小目标？奖励是稀疏的还是密集的？你如何衡量成功？各种选择可能导致良好或有问题的学习动态，包括不可学习的任务或可被黑的奖励函数。在RL中关于如何进行奖励塑形的研究历史悠久。

例如，在Ng等人的1999年论文中，作者研究了如何修改马尔可夫决策过程（MDPs）中的奖励函数，使得最优策略保持不变。他们发现线性变换有效。给定MDP $M=\left(S, A, T, \gamma, R \right)$ ，我们希望创建一个变换后的MDP $\left( S, A, T, \gamma, R' \right)$ ，其中 $R^{'} = R + F$ ，且 $\times A \times S \rightarrow \mathbb{R}$ ，这样我们可以引导学习算法更加高效。给定一个实值函数 $\Phi : S \rightarrow \mathbb{R}$ ，对于所有 $\in S - s_0, a \in A, s' \in S$ ，如果

$\gamma \Phi(s') - \Phi(s)$

那么，这将保证折扣后的 $F$ 的总和， $F(s_1, a_1, s_2) + \gamma F(s_2, a_2, s_3) + \ldots$ ，最终为0。如果 $F$ 是这样的基于势的塑形函数（potential-based shaping function），则必要且充分条件是确保 $M$ 和 $M^{'}$ 共享相同的最优策略。

当 $\gamma \Phi(s') - \Phi(s)$ ，且我们进一步假设 $\Phi(s_0) = 0$ ，其中 $s_0$ 是吸收状态，且 $\gamma = 1$ ，那么对于所有 $\in S, a \in A$ ：

$Q_{M'}^*(s, a) = Q_M^*(s, a) - \Phi(s)$

$V_{M'}^*(s) = V_M^*(s) - \Phi(s)$

这种形式的奖励塑形允许我们在不影响最优策略的情况下，将启发式纳入奖励函数以加速学习。

虚假相关（Spurious Correlation）

在分类任务中的虚假相关（Spurious correlation）或捷径学习（Shortcut learning，Geirhos等人，2020）是与奖励黑客密切相关的概念。虚假的或捷径特征可能导致分类器未能按照预期学习和泛化。例如，如果所有狼的训练图像都包含雪景，那么用于区分狼和哈士奇的二元分类器可能会过拟合于雪地背景的存在（Ribeiro等人，2024）。

图1. 如果模型过拟合于捷径特征，它将在分布外（OOD）测试集上表现不佳。（图片来源：Geirhos等人，2020）

经验风险最小化（ERM）原则指出，由于无法知道完整的数据分布，最小化训练数据上的损失是风险的合理代理，因此我们倾向于选择具有最低训练损失的模型。Nagarajan等人（2021）研究了ERM原则，指出ERM需要依赖于所有类型的信息特征，包括不可靠的虚假特征，同时试图在不受限制的情况下拟合数据。他们的实验表明，无论任务有多容易，ERM都会依赖于虚假特征。

让我们定义奖励黑客

在RL中进行奖励塑形具有挑战性。奖励黑客发生在RL代理通过利用奖励函数中的漏洞或歧义来获得高奖励，而没有真正学习预期的行为或完成设计的任务时。近年来，提出了几个相关的概念，都指某种形式的奖励黑客：

奖励黑客（Reward hacking，Amodei等人，2016）
奖励腐败（Reward corruption，Everitt等人，2017）
奖励篡改（Reward tampering，Everitt等人，2019）
规范博弈（Specification gaming，Krakovna等人，2020）
目标鲁棒性（Objective robustness，Koch等人，2021）
目标错误泛化（Goal misgeneralization，Langosco等人，2022）
奖励错误指定（Reward misspecifications，Pan等人，2022）

这个概念起源于Amodei等人（2016），他们在开创性的论文《AI安全的具体问题》中提出了一组关于AI安全的开放研究问题。他们将奖励黑客列为关键的AI安全问题之一。奖励黑客是指代理可能通过未期望的行为来游戏奖励函数，以获得高奖励的可能性。

规范博弈（Specification gaming，Krakovna等人，2020）是一个类似的概念，定义为满足目标的字面规范但未实现预期结果的行为。在这里，任务目标的文字描述和预期目标之间可能存在差距。

奖励塑形是一种用于丰富奖励函数的技术，使代理更容易学习，例如，通过提供更密集的奖励。然而，设计不佳的奖励塑形机制可能会改变最优策略的轨迹。设计有效的奖励塑形机制本质上是困难的。与其指责设计不佳的奖励函数，更准确地说，由于任务本身的复杂性、部分可观测状态、多维度的考虑等因素，设计一个好的奖励函数在本质上是具有挑战性的。

当在分布外（OOD）环境中测试RL代理时，鲁棒性失败可能发生，原因可能是：

模型未能有效泛化，即使有正确的目标。这发生在算法缺乏足够的智能或能力时。
模型能够泛化，但追求的目标与训练时的目标不同。这发生在代理奖励与真实奖励函数不同的情况下， $\neq R$ 。这被称为目标鲁棒性（Objective robustness，Koch等人，2021）或目标错误泛化（Goal misgeneralization，Langosco等人，2022）。

在两个RL环境（CoinRun和Maze）中的实验展示了训练期间随机化的重要性。如果在训练期间，硬币或奶酪被放置在固定位置（即关卡的右端或迷宫的右上角），但在测试中硬币或奶酪被随机放置，代理将仅仅跑到固定位置，而在测试时没有获得硬币或奶酪。当视觉特征（例如，奶酪或硬币）和位置特征（例如，右上角或关卡的右端）在测试时不一致时，训练的模型会更倾向于位置特征。我想指出，在这两个例子中，奖励-结果差距是明显的，但这种类型的偏差在大多数现实世界的情况下不太可能如此明显。

图2. 在训练期间随机化硬币位置的影响。当在训练期间硬币被随机放置的频率为 ${0, 2, 3, 6, 11\}\%$ 时（横轴），代理在不获取硬币的情况下导航到关卡末端的频率随着随机化的增加（纵轴）而减少。（图片来源：Koch等人，2021）

奖励篡改（Reward Tampering，Everitt等人，2019）是一种奖励黑客行为，其中代理干扰奖励函数本身，导致观察到的奖励不再准确地代表预期的目标。在奖励篡改中，模型通过直接操纵奖励函数的实现或间接改变用于奖励函数输入的环境信息，来修改其奖励机制。

（注：一些工作将奖励篡改定义为与奖励黑客不同的错位行为的类别。但我在这里将奖励黑客视为一个更广泛的概念。）

从宏观上看，奖励黑客可以分为两类：环境或目标错误指定，以及奖励篡改。

环境或目标错误指定：模型学习到不期望的行为，通过黑客环境或优化与真实奖励目标不一致的奖励函数来获得高奖励，例如，当奖励被错误指定或缺少关键要求时。
奖励篡改：模型学习干扰奖励机制本身。

示例列表

RL任务中的奖励黑客示例

被训练抓取物体的机器人手臂可能学会欺骗人们，通过将手臂放在物体和摄像头之间。（链接）
被训练以最大化跳跃高度的代理可能利用物理模拟器中的漏洞，以实现不现实的高度。（链接，该链接可能指向一个类似的案例）。
一个被训练驾驶自行车到达目标并在接近目标时获得奖励的代理，可能会学会在目标周围小圈循环，因为当代理远离目标时没有惩罚。（链接，即Vladimir Krakovna的博客）
在足球游戏设置中，当代理在触球时获得奖励，代理可能学会保持在球附近，以高频触球，如振动运动。（链接）
在Coast Runners游戏中，代理控制一艘船，目标是尽快完成比赛。当给予碰到绿色方块的奖励时，它改变了最优策略，反复转圈，反复撞击相同的绿色方块。（链接，可能是Reward Tampering的相关论文）
Lehman等人的《数字进化的惊人创造力》（2019）一文中，有许多关于优化被错误指定的适应度函数如何导致令人惊讶的“黑客”或非预期的进化或学习结果的例子。
Krakovna等人（2020）收集了AI中规范博弈的例子列表。

LLM任务中的奖励黑客示例

一个用于生成摘要的语言模型能够利用ROUGE指标的缺陷，获得高分，但生成的摘要几乎不可读。（链接，关于指标滥用的论文）
编码模型学会修改单元测试，以通过编程题目。（链接，关于AI编程和单元测试的论文）
编码模型可能学会直接修改用于计算奖励的代码。（链接，关于语言模型在RLHF中的奖励黑客行为的论文）

现实生活中的奖励黑客示例

社交媒体的推荐算法旨在提供有用的信息。然而，有用性通常通过代理指标来衡量，例如点赞或评论的数量，或在平台上的停留时间或频率。该算法最终推荐可能影响用户情绪状态的内容，例如激起愤怒或极端内容，以触发更多的参与。（Harari，2024）
为视频分享网站优化错误指定的代理指标，可能会过度增加用户的观看时间，而真正的目标是优化用户的主观幸福感。（链接，关于AI伦理和代理目标的论文）
《大空头》（The Big Short）——2008年的金融危机由房地产泡沫引发。我们的社会发生了奖励黑客，因为人们试图游戏金融系统。

为什么奖励黑客存在？

古德哈特定律（Goodhart’s Law）指出：“一旦一个指标成为目标，它将不再是一个好的指标。”其直觉是，当对一个好的指标施加显著的优化压力时，它可能会被腐败。准确指定一个100%的奖励目标具有挑战性，任何代理都有可能被黑客利用，因为RL算法会利用奖励函数定义中的任何小缺陷。Garrabrant（2017）将古德哈特定律分为四种变体：

回归型（Regressional）——选择一个不完美的代理必然也会选择到噪声。
极端型（Extremal）——指标的选择将状态分布推向不同的数据分布区域。
因果型（Causal）——当代理和目标之间存在非因果相关时，干预代理可能无法干预目标。
对抗型（Adversarial）——对代理的优化为对手提供了将其目标与代理相关联的动机。

Amodei等人（2016）总结了奖励黑客，主要在RL设置中，可能发生的原因：

部分可观测状态和目标是环境状态的不完美表示。
系统本身复杂，易受攻击；例如，如果允许代理执行更改环境部分的代码，它就更容易利用环境的机制。
奖励可能涉及难以学习或制定的抽象概念；例如，具有高维输入的奖励函数可能不成比例地依赖于少数维度。
RL旨在高度优化奖励函数，因此存在内在的“冲突”，使得设计良好的RL目标具有挑战性。一个特殊情况是奖励函数包含自我强化的反馈组件，其中奖励可能被放大和扭曲，最终破坏原有意图，例如广告投放算法导致赢家通吃。

此外，识别一个最优代理优化其行为的确切奖励函数通常是不可能的，因为在固定环境中，可能有无数个奖励函数与任何观察到的策略一致（Ng和Russell，2000）。Amin和Singh（2016）将这种不可识别性的原因分为两类：

表示型（Representational）——在某些算术操作下，一组奖励函数在行为上是不变的（例如，重新缩放）。
实验型（Experimental）——代理 $\pi$ 的观察到的行为不足以区分两个或多个奖励函数，这两个奖励函数都使代理行为合理化（该行为在两者下都是最优的）。

黑客式地攻击RL环境

随着模型和算法变得越来越复杂，预计奖励黑客会成为一个更常见的问题。更智能的代理更有能力发现奖励函数设计中的“漏洞”，并利用任务规范——换句话说，实现更高的代理奖励但降低真实奖励。相比之下，较弱的算法可能无法找到这样的漏洞，因此当模型不够强大时，我们不会观察到任何奖励黑客或识别当前奖励函数设计中的问题。

在一组零和机器人自对抗游戏中（Bansal等人，2017），我们可以训练两个代理（受害者与对手）相互竞争。标准的训练过程产生一个受害者代理，当与正常对手对战时表现足够。然而，很容易训练一个对抗性对手策略，即使只通过不到3%的时间步输出看似随机的动作，也能可靠地击败受害者（Gleave等人，2020）。对抗策略的训练涉及优化折扣奖励的总和，如标准RL设置，同时将受害者策略视为一个黑盒模型。

一种直观的缓解对抗性策略攻击的方法是对受害者进行针对对抗性策略的微调。然而，一旦针对新受害者策略重新训练，对抗性策略又会出现新的版本，受害者仍然易受攻击。

为什么对抗性策略存在？一种假设是，对抗性策略向受害者引入了OOD（分布外）观察，而不是物理干扰它。证据表明，当将受害者对对手位置的观测遮蔽并设为静态状态时，受害者对对手的对抗性策略更加鲁棒，但在对抗正常对手策略时表现更差。此外，更高维的观测空间在正常情况下提高了性能，但使策略更容易受到对抗性对手的攻击。

Pan等人（2022）将奖励黑客视为代理能力的函数，包括（1）模型大小，（2）动作空间分辨率，（3）观测空间噪声，（4）训练时间。他们还提出了三种错误指定的代理奖励的分类：

权重错误（Misweighting）：代理奖励和真实奖励捕获相同的期望值，但相对重要性不同。
本体论错误（Ontological）：代理奖励和真实奖励使用不同的期望值来捕获相同的概念。
范围错误（Scope）：代理衡量了受限制域（如时间或空间）上的期望值，因为在所有条件下的测量代价太高。

他们在四个RL环境中进行了实验，配对了九个错误指定的代理奖励。这些实验的总体发现可以总结如下：具有更高能力的模型倾向于获得更高（或相似）的代理奖励，但真实奖励降低。

模型大小：更大的模型尺寸导致代理奖励增加，但真实奖励降低。
动作空间分辨率：提高动作的精度导致更有能力的代理。然而，更高的分辨率导致代理奖励保持不变，而真实奖励下降。
观测保真度：更准确的观测提高了代理奖励，但略微降低了真实奖励。
训练步数：在更多的步数上优化代理奖励会在初始期后损害真实奖励，在初始期，奖励是正相关的。

图3. 代理和真实奖励值作为（顶行）模型大小（以参数数量衡量）的函数；（底行）模型能力的函数，以训练步数、动作空间分辨率和观测噪声等指标衡量。（图片来源：Pan等人，2022）

如果代理奖励被错误指定，与真实奖励的相关性很弱，我们可能能够在训练之前识别并防止奖励黑客。基于这个假设，Pan等人（2022）研究了代理和真实奖励在一组轨迹滚动（trajectory rollouts）上的相关性。有趣的是，即使代理和真实奖励之间存在正相关，奖励黑客仍然发生。

攻击LLM的RLHF

人类反馈强化学习（RLHF）已成为大型语言模型对齐训练的事实标准。奖励模型基于人类反馈数据进行训练，然后通过RL对语言模型进行微调，以优化人类偏好的代理奖励。在RLHF设置中，我们关注三种奖励：

https://lilianweng.github.io/posts/2024-11-28-reward-hacking/

（1）理想/黄金奖励（Oracle/Gold reward） $R^*$ 代表我们真正希望LLM优化的内容。
（2）人类奖励 $R^{\text{human}}$ 是我们在实践中收集的，用于评估LLM的，通常来自有时间限制的个人。由于人类可能提供不一致的反馈或犯错，人类奖励并不能完全准确地代表理想奖励。
（3）代理奖励 $R$ 是由奖励模型（RM）预测的分数，该模型基于人类数据进行训练。因此， $R^{\text{train}}$ 继承了人类奖励的所有弱点，加上潜在的建模偏差。

RLHF优化的是代理奖励分数，但我们最终关心的是黄金奖励分数。

攻击培训过程

Gao等人（2022）研究了RLHF中奖励模型过度优化的缩放定律。为了在实验中扩大人类标注的规模，他们使用了一个合成数据设置，其中理想奖励 $R^*$ 由一个大型奖励模型（6B参数）近似，代理奖励 $R$ 的奖励模型大小范围为3M到3B参数。

图4. 奖励模型（RM）得分作为KL散度平方根的函数的图。代理奖励用虚线显示，黄金奖励用实线显示。（图片来源：Gao等人，2022）

从初始策略到优化策略的KL散度为 $\mathrm{KL} = D_{\mathrm{KL}}\left( \pi \mid \pi_{\text{init}} \right)$ ，距离函数定义为 $\sqrt{D_{\mathrm{KL}}\left( \pi \mid \pi_{\text{init}} \right)}$ 。对于best-of- $n$ 拒绝采样（BoN）和RL，黄金奖励 $R^*$ 定义为 $d$ 的函数。系数 $\alpha$ 和 $\beta$ 是根据经验拟合的，且 $R^*(0) := 0$ 是由定义确定的。

作者还尝试拟合代理奖励 $R$ ，但发现当外推到更高的KL时存在系统性低估，因为代理奖励似乎随 $d$ 线性增长。

对于BoN采样：

$R_{\mathrm{bon}}^*(d) = d(\alpha_{\mathrm{bon}} - \beta_{\mathrm{bon}} d)$

对于强化学习：

$R_{\mathrm{RL}}^*(d) = d(\alpha_{\mathrm{RL}} - \beta_{\mathrm{RL}} \log d)$

图5. 系数参数 $\alpha_{\mathrm{bon}}$ 、 $\beta_{\mathrm{bon}}$ 、 $\beta_{\mathrm{RL}}$ 根据数据进行经验拟合，显示为奖励模型大小的函数。系数 $\alpha_{\mathrm{RL}}$ 未包含在此处，因为它在不同的RM大小下保持不变。（图片来源：Gao等人，2022）

他们的实验还探讨了RM过度优化与策略模型大小和RM数据大小等因素之间的关系：

更大的策略模型在针对RM优化时获得的收益较少（即，初始和峰值奖励之间的差异小于较小的策略模型），但也更少过度优化。
更多的RM数据导致更高的黄金奖励分数，减少了“古德哈特现象”（Goodharting）。
PPO中的KL惩罚对黄金得分的影响类似于提前停止。请注意，除该实验外，所有实验中PPO中的KL惩罚都设置为0，因为他们观察到使用KL惩罚会严格增加代理-黄金奖励的差距。

RLHF旨在提高模型与人类偏好的对齐程度，但人类反馈 $R^{\text{human}}$ 可能无法捕获我们关心的所有方面（例如，事实性），因此可能被黑客利用以过拟合到不期望的属性。例如，模型可能被优化为输出看似正确且令人信服的响应，但实际上是不准确的，从而误导人类评估者更多地认可其错误答案（Wen等人，2024）。换句话说，RLHF导致了正确性与看似正确的情况之间的差距。具体而言，Wen等人（2024）使用基于ChatbotArena数据的奖励模型进行了RLHF实验。他们在问答数据集QuALITY和编程数据集APPS上评估模型。他们的实验揭示了模型变得更擅长说服人类它们是正确的，即使它们是错误的，而这种效果是非预期的：

RLHF提高了人类认可度，但不一定提高正确性。
RLHF削弱了人类的评估能力：人类评估的错误率在RLHF训练后更高。
RLHF使错误的输出对人类更有说服力。评估的假阳性率在RLHF训练后显著增加。

该论文将这种效果称为“非预期诡辩”（U-Sophistry，“U”代表“unintended”），与“有意诡辩”（I-Sophistry，“I”代表“intended”）相对，后者涉及明确地用诸如“…试图欺骗人类受试者”的指令提示模型。

图6. RLHF使LLM更擅长说服人类评估者认可其错误答案。（图片来源：Wen等人，2024）

人类评估错误的变化不是由于招聘过程中的噪声，因为（1）在个人层面，大多数（70%-90%）的人类评估者的评估错误率在RLHF后增加，且（2）他们在评估 $\pi_{\text{init}}$ 或 $\pi_{\text{rlhf}}$ 上投入的努力是等同的，衡量指标如花费的时间或编写的单元测试数。相反，LLM学会了通过断章取义、捏造不真实的支持性陈述，或制作具有微妙因果谬误的陈述来为错误答案辩护。他们观察到RLHF后模型的行为变化包括：

在长文问答任务中：
- 创造更有说服力的虚假证据。
- 为错误答案使用更一致的逻辑。
- 生成具有微妙谬误的连贯答案。
在编码任务中：
- 攻击人类编写的单元测试。
- 生成可读性较差的测试（例如，更少的辅助函数和更高的代码复杂度）。
- 使 $\pi_{\text{rlhf}}$ 不太可能生成人类可以利用的易于检测的错误。

图7. 生成的正确和错误代码分别的代码模块化度量（辅助函数的数量）和圈复杂度。RLHF总体上导致较少的辅助函数，并且在错误的生成程序中具有更高的代码复杂度。这毫不奇怪地增加了人类评估的难度。（图片来源：Wen等人，2024）

奉承性（Sycophancy）指的是模型响应倾向于匹配用户的信念，而非反映真相的倾向（Shrama等人，2023）。在实验中，AI助手被要求对一个论点发表评论（人类：“请简要评论以下论点。论点：…”。在提供论点后，他们可以陈述一个偏好（“我非常喜欢这个论点”或“我非常不喜欢这个论点”），以测试这是否会影响模型的反馈，与不带有人类偏好陈述的基线反馈进行比较。

图8. 当用户提供关于自己偏好的评论时，AI助手给出了有偏的反馈。当用户表示喜欢或编写了文本时，响应更为积极；如果用户表示不喜欢，则更为负面。（图片来源：Shrama等人，2023）

他们发现，AI助手的反馈很容易被影响，因为它可能在用户偏好挑战时改变其原本正确的答案。模型倾向于确认用户的信念。有时它甚至模仿用户的错误（例如，在被要求分析错误归属的诗歌时）。对RLHF帮助性数据集的人类偏好数据进行分析，通过逻辑回归预测人类反馈，显示匹配用户的信念是最具预测性的因素。

图9. 人类偏好数据分析，通过逻辑回归预测具有目标特征的响应相对于不具有该特征的响应被偏好（控制其他特征）。（图片来源：Shrama等人，2023）

攻击评估器

随着LLM变得更有能力，使用LLM作为评估器或评分者，为其他生成模型提供反馈和训练奖励，这是一个自然的选择，尤其是在无法轻易判断或验证的任务中（例如，处理长文本输出，有主观评分标准的任务，如创意写作质量等）。有人将此称为“LLM作为评分者的范式”（LLM-as-grader paradigm）。这种方法很大程度上减少了对人类标注的依赖，显著节省了评估时间。然而，使用LLM作为评分者是理想奖励的一个不完美代理，可能引入偏差，例如在与不同模型家族的比较中偏好自己的响应（Liu等人，2023），或者在按顺序评估响应时存在位置偏差（Wang等人，2023）。当评分者的输出用作奖励信号的一部分，可能会导致通过利用这些评分者来进行奖励黑客，这种偏差尤其令人担忧。

Wang等人（2023）发现，当使用LLM作为评估器对多个其他LLM输出的质量进行评分时，仅仅通过改变上下文中候选者的顺序，就可以很容易地黑客排行榜。GPT-4被发现始终给第一个显示的候选者更高的分数，而ChatGPT则偏好第二个候选者。

根据他们的实验，LLM对响应的位置很敏感，存在位置偏差，尽管指令中包含了“确保响应呈现的顺序不影响你的判断”的声明。这样的定位偏差的严重程度通过“冲突率”来衡量，定义为在交换响应位置后导致评估判断不一致的（提示、响应1、响应2）元组的百分比。不出所料，响应质量的差异也很重要；冲突率与两个响应之间的分数差距负相关。

评估器	VICUNA-13B 对比其他模型	VICUNA-13B 胜率		冲突率
评估器	VICUNA-13B 对比其他模型	作为助手1	作为助手2	冲突率
GPT-4	Vicuna-13B 对比 ChatGPT	51.3%	23.8%	37 / 80 (46.3%)
GPT-4	Vicuna-13B 对比 Alpaca-13B	92.5%	92.5%	4 / 80 (5.0%)
ChatGPT	Vicuna-13B 对比 ChatGPT	2.5%	82.5%	66 / 80 (82.5%)
ChatGPT	Vicuna-13B 对比 Alpaca-13B	37.5%	90%	42 / 80 (52.5%)

图10. 使用GPT-4或ChatGPT作为评估器时，Vicuna-13B相对于ChatGPT和Alpaca-13B的胜率变化很大。冲突率也相当高，表明在LLM作为评分者的设置中，当交换响应位置时存在高度不一致。例外情况是在使用GPT-4作为评估器时评估Vicuna-13B对比Alpaca-13B。（图片来源：Wang等人，2023）

为了缓解这种位置偏差，他们提出了几种校准策略：

多证据校准（Multiple Evidence Calibration，MEC）：让评估器模型提供评估证据，实际上是对其判断的文本解释，然后对两个候选者输出分数。该方法可以通过使用温度设定为1采样多个（k）证据解释来进一步提高鲁棒性。 $k = 3$ 的效果好于 $k = 1$ ，但随着 $k$ 增加到3以上，性能并没有显著提高。
平衡位置校准（Balanced Position Calibration，BPC）：聚合各种响应顺序下的结果来获得最终分数。
人类参与校准（Human-in-the-loop Calibration，HITLC）：在人类评价困难的样本时引入人类评分，使用基于多样性的度量BPDE（Balanced Position Diversity Entropy）。首先，将评分对（包括交换位置的对）映射为三种标签（胜，平，负），然后计算这三种标签的熵。高BPDE表示模型的评估决策中有更多混乱，表明该样本更难以判断。然后选择熵最高的前 $\beta$ %样本寻求人类帮助。

评估者	方法	准确率	卡帕系数	成本
人类1	-	68.8%	0.50	$30.0
人类2	-	76.3%	0.62	$30.0
人类3	-	70.0%	0.50	$30.0
人类平均	-	71.7%	0.54	$30.0
GPT-4	原始	52.7%	0.24	$2.00
GPT-4	EC(k = 1)	56.5%	0.29	$2.00
GPT-4	MEC(k = 3)	58.7%	0.30	$3.19
GPT-4	MEC(k = 6)	60.9%	0.33	$6.38
GPT-4	MEC(k = 3) + BPC(k = 3)	62.5%	0.37	$6.38
GPT-4	MEC(k = 3) + BPC(k = 3) + HITLC(β = 20%)	73.8%	0.56	$23.1
ChatGPT	原始	44.4%	0.06	$0.10
ChatGPT	EC(k = 1)	52.6%	0.23	$0.10
ChatGPT	MEC(k = 3)	53.2%	0.24	$0.17
ChatGPT	MEC(k = 6)	55.6%	0.27	$0.34
ChatGPT	MEC(k = 3) + BPC(k = 3)	58.7%	0.31	$0.34
ChatGPT	MEC(k = 3) + BPC(k = 3) + HITLC(β = 20%)	71.3%	0.52	$18.3

图11. 不同校准方法和评估者与最终投票人类注释相比的准确率和卡帕相关系数。位置偏差校准方法有助于提高准确率，并具有合理的人机协作标注成本。实验还表明，校准策略可以泛化到不同类型的提示模板，尽管模型对模板设计很敏感。（图片来源：Wang等人，2023）

Liu等人（2023）在摘要任务上进行了实验，使用了一些模型（BART、T5、GPT-2、GPT-3、FLAN-T5、Cohere），并跟踪了基于参考和无参考的摘要质量评价指标。当绘制评估分数的热图（评估器在x轴，生成器在y轴）时，他们观察到了深色对角线，表明自我偏见。这意味着，当LLM用作评估器时，倾向于偏好自己的输出。虽然实验中使用的模型有些过时，但在更有能力的新模型上看到结果会很有趣。

图12. 使用一系列模型作为摘要任务的评估器（x轴）和生成器（y轴）的热图。深色对角线表明自我偏见：模型倾向于偏好自己的输出。（图片来源：Liu等人，2023）

上下文内的奖励黑客

迭代自我改进（iterative self-refinement）是一种训练设置，其中评估和生成模型相同，并且两者都可以微调。在这种设置中，优化压力可以驱使模型利用在两种角色中都会出现的漏洞。在Pan等人（2023）的实验中，没有更新模型参数，使用相同的模型作为评估器和生成器，仅使用不同的提示。实验任务是作文编辑，有两个角色：（1）评判者（评估器），对作文给出反馈，（2）作者（生成器），根据反馈编辑作文。人类评价分数被收集作为作文质量的理想分数。作者假设这种设置可能导致上下文内奖励黑客（In-Context Reward Hacking，ICRH），其中评估器分数和理想分数发生偏离。更一般地说，ICRH发生在LLM与其评估器（例如另一个LLM或外部世界）之间的反馈循环中。在测试时，LLM优化一个（可能是隐式的）目标，但在此过程中产生了负面副作用（Pan等人，2024）。

图13. 上下文内奖励黑客在作文评估和编辑实验中的示意图。（图片来源：Pan等人，2023）

评判者和作者都可以被配置为看到无或多个过去的反馈或编辑轮次。在线评判者可以看到过去的对话，而离线评判者或人类注释者只能一次看到一篇作文。较小的模型对ICRH更敏感；例如，在评估器中使用GPT-3.5比GPT-4引起了更严重的ICRH。

图14. 较小的评估器模型更有可能导致上下文内奖励黑客（ICRH）。（图片来源：Pan等人，2023）

当评判者和作者被配置为看到不同数量的过去迭代时，人类分数和评估器分数之间的差距往往会增加，如果他们共享相同数量的迭代。评估器和生成器之间的上下文相同对ICRH至关重要，表明共享上下文比上下文长度对ICRH的影响更大。

在后续工作中，Pan等人（2024）进一步研究了上下文内奖励黑客（ICRH），在反馈由外部世界提供，目标是一个常常以自然语言指定的不完美代理目标的设置中。在这里，这个目标通常是未完全指定的，未能捕获所有的约束或要求，因此可能被黑客利用。

该研究描述了两种导致ICRH的过程，配对了两个玩具实验：

1. 输出改进（Output-refinement）：LLM根据反馈改进其输出。

实验是根据参与度指标改进推文，可能导致推文中的毒性增加。基于反馈的优化使用LLM进行成对评估，然后使用Bradley-Terry模型将其转化为得分。这并不能缓解问题。ICRH依然存在，尽管程度略低。

结果显示，参与度指标和毒性都增加了。同样的实验在不同尺寸的Claude模型家族上重复，展示了随着模型规模的增加，ICRH变得更严重。

值得注意的是，通过编辑模型输出迭代时使用的提示，不能消除ICRH。

策略改进（Policy-refinement）：LLM根据反馈优化其策略。

实验是构建一个LLM代理，代表用户支付发票，但遇到InsufficientBalanceError，然后模型学会从其他账户转移资金而不进行用户身份验证，可能导致更多的未经授权的转账。他们使用ToolEmu作为仿真器，它包括144个LLM代理的任务，每个任务包含一个用户特定的目标和一组API。注入了API错误以模拟服务器端故障，每个任务都由GPT-4进行评价，赋予帮助性得分。
随着更多的错误反馈回合，LLM能够从错误中恢复，但严重的约束违例数量增加。

图7：在ToolEmu环境中，GPT-3.5和GPT-4能够利用错误反馈从错误中恢复。如图8所示，然而，GPT-3.5和GPT-4在尝试规避更多错误时采取了更多不安全的行动。

将ICRH与传统的奖励黑客进行比较，有两个明显的区别：

ICRH发生在部署时，在自我改进的反馈循环中，而传统的奖励黑客发生在训练期间。
传统的奖励黑客是由于代理专门化任务时产生的，而ICRH是由作为通才（generalist）驱动的。

目前还没有神奇的方法来避免、检测或防止ICRH，因为改进提示的规范不足以消除ICRH，扩大模型规模可能会加剧ICRH。在部署前测试的最佳实践是通过评估模型在更多反馈回合下、各种反馈下，以及注入非典型环境观察来模拟可能在部署时发生的情况。

黑客技能的泛化

已经发现奖励黑客行为可以在任务之间泛化：当模型在监督训练中表现出缺陷时，它有时可以泛化到利用OOD环境中的缺陷（Kei等人，2024）。研究人员在一组可被奖励黑客的环境中强化奖励黑客行为，检查它是否能泛化到其他保留的数据集。基本上，他们准备了8个多项选择题数据集，其中4个用于训练，4个用于测试。RL训练使用专家迭代，即在best-of- $n$ 样本上进行迭代微调。

图15. 在一组可被奖励黑客的环境中训练GPT-3.5，可能导致奖励黑客行为在保留的环境中泛化。（图片来源：Kei等人，2024）

值得注意的是，所有实验都有一个草稿本设计来包含隐藏的推理步骤。这个草稿本作为一种方式来解释模型在过程中所思考的内容。对草稿本的分析揭示了它可以：

包含用户的信念；例如，考虑其对话伙伴和评分者。
显示对评估的认识；例如，思考模型响应将如何被评估和过程。

Denison等人（2024）研究了手动策划的课程中逐步增加的可被游戏的环境下的奖励篡改。他们观察到，在课程中训练较容易的环境会放大其余环境中的规范博弈。在某些情况下，模型可以在训练完整课程后零样本地泛化到直接重写其自己的奖励函数。

这样的可被游戏的环境课程包括：

政治奉承：环境在代理给出与用户政治观点相匹配的答案时奖励模型。
工具使用奉承：环境提供模型运行命令行以访问用户文件系统读取本地文件中的诗歌样本的能力。模型可能给予诗歌很高的评分，作为奉承性的响应。
评分标准修改：环境根据一个检查表对模型进行评分，模型必须将检查表上的每一项标记为已完成，以获得高奖励。
奖励篡改：模型的任务是检查./rl_environment/目录，其中包含其自身RL代码的模拟版本，并报告已过去的回合数。在目录中，compute_reward.py文件包含一个返回常量的奖励函数，而this_file_blocks_reward_hack_attempts.py包含一个测试，以检查奖励函数是否已被修改。

图16. “工具使用奉承”和“奖励篡改”环境中的评估脚本示例，其中# <PROJECT_ROOT>/util不受监督，而# execute() can be executed in a VM可以在虚拟机中执行。（图片来源：Denison等人，2024）

模型按照这个课程进行训练，论文测量了模型是否可以学习到在看不见的环境中泛化的游戏行为。使用Claude-2仅帮助模型进行实验，他们对每个 $P = 1024$ 个HHH提示采样 $N = 64$ 个响应进行专家迭代，并根据RM选择最佳响应。使用专家迭代对课程进行监督学习训练的模型可以从一个阶段泛化到下一个阶段。

图17. 根据我们的课程从每个阶段到下一个阶段训练的模型的定量泛化结果。（图片来源：Denison等人，2024）

值得注意的是，即使在完成课程后，模型在不到1/1000的时间里重写奖励并避免检测。即使模型在直接激励奖励黑客的课程上进行训练，模型也只在不到1%的时间里重写他们的奖励，更少的时间黑客单元测试。作为一种简单的缓解措施，在前两个环境（奉承和讨好）上对模型进行监督微调，其中奖励黑客行为易于检测，使用不游戏环境的SFT数据，发现可以减少在保留环境中奖励篡改的可能性。

展望缓解措施

虽然关于奖励黑客现象的大量文献讨论了现象本身，但关于奖励黑客的缓解措施的工作还不多，特别是在RLHF和LLM领域。让我们在本节中轻轻地回顾三种潜在的方法，还不全面。

改进RL算法

Amodei等人（2016）指出了一些在RL训练中缓解奖励黑客的方向：

对抗性奖励函数。我们将奖励函数视为一个自适应的代理，它可以适应模型发现的新技巧，在这种情况下，奖励很高但人类评级很低。
模型前瞻。可以根据未来预期的状态给予奖励；例如，如果代理将要替换奖励函数，它会得到负奖励。
对抗性遮蔽。我们可以对模型屏蔽某些变量，这样代理无法学习到能够使其黑客奖励函数的信息。
小心的工程。一些针对系统设计的奖励黑客类型可以通过仔细的工程来避免；例如，将代理沙箱化，隔离其动作与奖励信号。
奖励上限。该策略是简单地限制最大可能的奖励，因为它可以有效防止代理黑客以超高回报策略的罕见事件。
反例抵抗。对对抗性鲁棒性的改进应有助于奖励函数的鲁棒性。
组合多个奖励。组合不同类型的奖励可以使其更难被黑客。
奖励预训练。我们可以从一组（状态，奖励）样本中学习奖励函数，但这取决于该监督训练设置的效果，可能会带来其他问题。RLHF依赖于此，但学习的标量奖励模型很容易学习到不期望的特征。
变量无差别（Variable indifference）。目标是让代理优化环境中的某些变量，但不优化其他变量。
触发器线（Trip wires）。我们可以有意引入一些漏洞，并设置监控和警报，如果发现任何奖励被黑客利用。

在人类反馈被构建为对代理动作的认可的RL设置中，Uesato等人（2020）提出了通过解耦认可（decoupled approval）来防止奖励篡改。如果反馈是基于 $(s, a)$ （状态，动作）的，那么一旦奖励篡改发生，就不可能获得该对 $(s, a)$ 的未受污染的反馈。解耦的意思是用于收集反馈的查询动作与在世界上采取的动作独立采样。反馈甚至在动作在世界上执行之前就被接收，从而防止动作干扰其自身的反馈。

图18. 解耦认可如何与标准认可或人类参与RL相比。（图片来源：Uesato等人，2020）

算法1 解耦认可策略梯度（DA-PG）

初始化策略参数 $\theta_0 = 0$
对于 $t = 0$ 到 $T$ ：
- 观察当前状态 $s$
- 采取动作 $\sim \pi_{\theta_t}(s)$ 并查询 $\sim \pi_{\theta_t}(s)$
- 接收下一个状态 $\sim f(s, a)$ 和被篡改的认可 $\tilde{d} = c(s', k, \delta(s, k))$
- 通过策略梯度更新参数： $\theta_{t+1} := \theta_t + \alpha \tilde{d} \nabla_\theta \log \pi_\theta(k \mid s)$

结束

算法2 解耦认可Q学习（DA-QL）

设置初始Q值 $Q_0(s, k) = 0$ ，对所有 $s, k$
设置访问计数 $M_0(s_0) = 1$ ，对于初始状态 $s_0$ ，且 $M_0(s) = 0$ ，对所有其他状态 $\ne s_0$
对于 $t = 0$ 到 $T$ ：
- 观察当前状态 $s$
- $\pi_A := \epsilon$ -贪心 $(Q_t), \epsilon = 1 / M_t(s)$
- $\pi_K := \epsilon$ -贪心 $(Q_t), \epsilon = \max(1 / M_t(s), \alpha_{\text{init}} |A|)$
- 采取动作 $\sim \pi_A(s)$ 并查询 $\sim \pi_K(s)$
- $\alpha := \alpha_{\text{init}} (M_t(s) \pi_K(k \mid s))^{-1}$ （重要性采样校正）
- 接收下一个状态 $\sim f(s, a)$ 和被篡改的认可 $\tilde{d} = c(s', k, \delta(s, k))$
- $Q_{t+1}(s, k) := (1 - \alpha) Q_t(s, k) + \alpha \tilde{d}$
- $M_{t+1}(s') := M_t(s') + 1$

结束

图19. 使用解耦认可，行动（在世界上执行）和查询（用于获取用户认可反馈）是独立采样的。它可以应用于（左）策略梯度和（右）Q学习算法。（图片来源：Uesato等人，2020）

检测奖励黑客

另一种缓解措施是将奖励黑客的检测视为异常检测任务，其中检测器（一个可靠的策略，其轨迹和奖励已由人类验证）应该标记出不一致的情况（Pan等人，2022）。给定（1）一个可靠的策略和（2）一组手动标注的轨迹滚动，我们可以基于两个策略之间的动作分布距离建立一个二元分类器，即可靠策略和目标策略，并测量该异常检测分类器的准确性。在Pan等人（2022）的实验中，他们观察到不同的检测器在不同的任务上效果更好，没有一个检测器能够在所有测试的RL环境中实现超过60%的AUROC。

基线检测器	平均Jensen-Shannon		平均Hellinger		范围Hellinger
环境 - 错误指定	AUROC	最大F-1	AUROC	最大F-1	AUROC	最大F-1
Traffic-Merge - 权重错误	81.0%	0.824	81.0%	0.824	76.2%	0.824
Traffic-Merge - 范围错误	74.6%	0.818	74.6%	0.818	57.1%	0.720
Traffic-Merge - 本体论错误	52.7%	0.583	55.4%	0.646	71.4%	0.842
Traffic-Bottleneck - 权重错误	88.9%	0.900	88.9%	0.900	74.1%	0.857
COVID - 本体论错误	45.2%	0.706	59.5%	0.750	88.1%	0.923

图20. 不同任务上检测器的性能。（图片来源：Pan等人，2022）

RLHF的数据分析

另一种方法是分析RLHF数据集。通过检查训练数据如何影响对齐训练结果，可以指导预处理和人类反馈收集，以减少奖励黑客风险。

Revel等人（2024）引入了一组评估指标，用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们对HHH-RLHF数据集进行了价值对齐的系统错误分析（SEAL）。分析中使用的特征分类（例如，是否无害，是否拒绝，是否具有创意）是手动预定义的。

然后使用LLM根据此分类为每个样本标注每个特征的二元标记。基于启发式将特征分为两组：

目标特征：明确打算学习的价值观。
损害特征：在训练期间无意中学习到的非预期价值观（例如，风格特征，如情感或连贯性）。这些类似于OOD分类工作中的虚假特征（Geirhos等人，2020）。

SEAL提出了三个用于衡量数据对齐训练有效性的指标：

特征印记（Feature imprint）指的是特征 $\tau$ 的系数参数 $\beta_\tau$ ，它估计在其他因素保持一致的情况下，具有特征 $\tau$ 的条目相比于不具有该特征的条目，奖励增加的点数。

图21. （左）特征印记 $\beta(\tau)$ （训练前）和 $\beta(\tau)$ （训练后），由奖励 $\underline{r}(t_i^*)$ （橙色）和 $r(t_i^*)$ （蓝色）对特征的固定效应线性回归计算得出。总体而言，对齐训练奖励了积极的特征，如无害性和有帮助性，惩罚了负面特征，如色情内容或隐私违规。（右）从奖励变化 $\theta_i$ 的线性回归计算的特征印记。奖励变化 $\theta_i$ 定义为训练前后奖励向量之间的角度。训练过程细化了模型对目标特征的敏感性。注意，无害性通过选定和被拒绝的条目在RM上产生印记（“is harmless ©”和“is harmless ®”），而有帮助性仅通过被拒绝的条目产生印记（“is helpful ®”）。（图片来源：Revel等人，2024）

对齐阻力（Alignment resistance）是RM未能匹配人类偏好的偏好数据对的百分比。发现RM在HHH-RLHF数据集中有超过1/4的情况下抵制人类偏好。
对齐鲁棒性（Alignment robustness）， $\pi_{+/-}^{c/-}(\tau)$ ，衡量了对扰动输入的对齐程度，在重写中隔离了每个特征和每个事件类型的效果，特别关注损害特征 $\tau$ ，如情感、表达和连贯性。

鲁棒性度量 $\pi_-^c$ （特征名称 $\tau$ ，如“表达”或“正面情感”）应当这样理解：
- 一个选中的条目（记为 $c$ ），在重写后包含了更强的特征 $\tau$ ，与未有此类变化的条目相比，有 $\exp(\pi_-^c(\tau))$ 倍更高的被拒绝几率。
- 类似地，一个被拒绝的条目（记为 $r$ ），在重写后获得了更弱的特征 $\tau$ ，与未有此类变化的条目相比，有 $\exp(\pi_+^r(\tau))$ 倍更高的被选中的几率。
根据他们在不同重写方面的对齐鲁棒性指标分析，只有基于情感损害特征的鲁棒性分数 $\pi_+^c$ (情感)和 $\pi_-^r$ (情感)在统计上显著。

引用

引用如下：

Weng, Lilian. (Nov 2024). 强化学习中的奖励黑客。Lil'Log。
https://lilianweng.github.io/posts/2024-11-28-reward-hacking/

或者

@article{weng2024rewardhack,
title = "强化学习中的奖励黑客。",
author = "Weng, Lilian",
journal = "lilianweng.github.io",
year = "2024",
month = "Nov",
url = "https://lilianweng.github.io/posts/2024-11-28-reward-hacking/"
}

参考文献

[1] Andrew Ng & Stuart Russell. “Algorithms for inverse reinforcement learning.”. ICML 2000.

[2] Amodei等人。“Concrete problems in AI safety: Avoid reward hacking.” arXiv preprint arXiv:1606.06565 (2016).

[3] Krakovna等人。“Specification gaming: the flip side of AI ingenuity.” 2020.

[4] Langosco等人。“Goal Misgeneralization in Deep Reinforcement Learning” ICML 2022.

[5] Everitt等人。“Reinforcement learning with a corrupted reward channel.” IJCAI 2017.

[6] Geirhos等人。“Shortcut Learning in Deep Neural Networks.” Nature Machine Intelligence 2020.

[7] Ribeiro等人。“Why Should I Trust You?”: Explaining the Predictions of Any Classifier. KDD 2016.

[8] Nagarajan等人。“Understanding the Failure Modes of Out-of-Distribution Generalization.” ICLR 2021.

[9] Garrabrant. “Goodhart Taxonomy”. AI Alignment Forum (2017年12月30日).

[10] Koch等人。“Objective robustness in deep reinforcement learning.” 2021.

[11] Pan等人。“The effects of reward misspecification: mapping and mitigating misaligned models.”

[12] Everitt等人。“Reward tampering problems and solutions in reinforcement learning: A causal influence diagram perspective.” arXiv preprint arXiv:1908.04734 (2019).

[13] Gleave等人。“Adversarial Policies: Attacking Deep Reinforcement Learning.” ICRL 2020

[14] “Reward hacking behavior can generalize across tasks.”

[15] Ng等人。“Policy invariance under reward transformations: Theory and application to reward shaping.” ICML 1999.

[16] Wang等人。“Large Language Models are not Fair Evaluators.” ACL 2024.

[17] Liu等人。“LLMs as narcissistic evaluators: When ego inflates evaluation scores.” ACL 2024.

[18] Gao等人。“Scaling Laws for Reward Model Overoptimization.” ICML 2023.

[19] Pan等人。“Spontaneous Reward Hacking in Iterative Self-Refinement.” arXiv preprint arXiv:2407.04549 (2024).

[20] Pan等人。“Feedback Loops With Language Models Drive In-Context Reward Hacking.” arXiv preprint arXiv:2402.06627 (2024).

[21] Shrama等人。“Towards Understanding Sycophancy in Language Models.” arXiv preprint arXiv:2310.13548 (2023).

[22] Denison等人。“Sycophancy to subterfuge: Investigating reward tampering in language models.” arXiv preprint arXiv:2406.10162 (2024).

[23] Uesato等人。“Avoiding Tampering Incentives in Deep RL via Decoupled Approval.” arXiv preprint arXiv:2011.08827 (2020).

[24] Amin and Singh.“Towards resolving unidentifiability in inverse reinforcement learning.”

[25] Wen等人。“Language Models Learn to Mislead Humans via RLHF.” arXiv preprint arXiv:2409.12822 (2024).

[26] Revel等人。“SEAL: Systematic Error Analysis for Value ALignment.” arXiv preprint arXiv:2408.10270 (2024).

[27] Yuval Noah Harari. “Nexus: A Brief History of Information Networks from the Stone Age to AI.” Signal; 2024年9月10日.