无需RLHF显著提升GPT-4性能，北大团队提出对齐新范式「残差修正」| NeurIPS 2024 Oral...

最新推荐文章于 2025-04-28 22:34:08 发布

PaperWeekly

最新推荐文章于 2025-04-28 22:34:08 发布

阅读量805

点赞数 17

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/145348882

版权

学习对齐答案和未对齐答案之间的残差，要比直接学习问题到答案之间的映射更容易。

背景

当下大语言模型（LLMs）虽然展现出强大的能力，但也可能产生不可预测甚至有害的输出，例如冒犯性回应、虚假信息传播或隐私数据泄露。这些问题不仅对用户构成潜在威胁，也可能对社会产生广泛影响。因此，确保这些模型的行为与人类的意图和价值观相一致，成为一个亟需解决的重要挑战。

尽管基于人类反馈的强化学习（RLHF）提供了一种解决方案，但其实现过程却面临诸多瓶颈，包括训练架构的高度复杂性、对参数的极高敏感性，以及奖励模型在不同数据集上的不稳定性等。这些因素导致 RLHF 的实施难度高、效果难以保障，且复现性较差。

为应对这些问题，北京大学团队提出了一种全新的高效对齐范式——Aligner。Aligner 的核心理念是通过学习对齐答案与未对齐答案之间的修正残差，绕过传统 RLHF 繁琐的流程。

借鉴残差学习和可扩展监督的思想，Aligner 将对齐过程简化为复制和残差修正两个步骤，并采用 Seq2Seq 模型学习隐式残差，从而优化对齐效果。

与需要训练多个模型的 RLHF 方法相比，Aligner 的实现更加简洁高效。其仅需在待对齐模型后附加一个额外模块即可完成对齐，计算资源的需求主要取决于对齐目标，而非原始模型的规模。

实验结果表明，仅通过一次训练，7B规模的 Aligner 模型即可显著提升 11 个不同前置模型的表现，在帮助性和无害性上分别平均提高了 68.9% 和 22.8%。特别地，Aligner-7B 对 GPT-4 的帮助性和安全性提升尤为显著，分别提高了 17.5% 和 26.9%。

为了推动社区对残差修正范式的进一步研究，北京大学对齐小组开源了 Aligner 的训练代码和数据集。此外，团队还开源了基于最新开源与闭源模型（如 GPT-4o, o1 等）精心构建的修正数据集 AlignerTails。该数据集涵盖通用任务、安全性、共情能力、文本总结和推理等多个领域，并将持续更新（目前已超过 10 万条数据）。

值得一提的是，相关研究成果已被 NeurIPS 2024 接收为口头报告（Oral Presentation，Top 0.45%）。

论文地址：

https://arxiv.org/abs/2402.02416

项目主页：

https://pku-aligner.github.io/

Github项目代码：

https://github.com/PKU-Alignment/aligner

AlignerTails数据集：

https://huggingface.co/datasets/aligner/alignertails

对齐新范式：残差修正

2.1 如何实现残差修正？

为了克服这些挑战，北京大学团队提出了一种新的高效对齐范式 —— Aligner，其核心在于学习答案对齐与未对齐之间的修正残差，从而绕过繁琐的 RLHF 流程。仅需要一次训练，对齐器 Aligner 便可提升 11 个不同开闭源模型的在 3H 标准下（帮助性、无害性和诚实性）的性能。

Aligner 的核心洞察在于：

学习对齐答案和未对齐答案之间的残差，要比直接学习问题到答案之间的映射更容易。

借鉴残差学习和可扩展监督的思想，Aligner 通过简单的复制和残差修正步骤简化了对齐过程，使用 Seq2Seq 模型学习隐式残差，以优化对齐效果。

具体而言，Aligner 在一个偏好数据集上进行微调，以学习偏好和非偏好回答之间的修正残差，然后嵌套在前置模型上以实现修正对齐。

相较于 RLHF 需要训练多个模型的复杂性，Aligner 仅通过在待对齐模型后附加一个额外模块即可实现对齐，且所需计算资源主要取决于对齐效果的期望，并非上游模型的规模。

实验结果显示，仅需要一次训练，7B 的 Aligner 模型可以提升 11 个不同前置模型平均 68.9% 帮助性和 22.8% 无害性。

2.2 为何是残差？

对齐器（Aligner）嵌套在前置模型之上，通过将前置模型的初始答案重分布调整为更有帮助性和无害性的答案，使得 LLM 的输出更符合人类意图。

基于“修正比生成更简单”的理念，Aligner 在训练过程中直接学习未对齐分布到对齐分布之间的“残差”，而不是像 SFT 那样学习从问题到答案分布的直接映射。这使得 Aligner 能够更加平滑地掌握对齐后分布的特征及其映射关系。

从工作流的角度看，Aligner 的设计类似于残差块，通过复制和修正方法改进原始答案，而无需改变前置模型的参数。Aligner 的这种快捷添加方式，不仅保留了前置模型的原始架构，还增强了其输出的符合性和预期效果。

在可解释性方面，Aligner 展现了其独特的特性。作者基于表征工程和激活操纵进行了实验，通过线性人工断层扫描（LAT）对 Aligner 的生成过程进行层可视化。

下图中较高的值表示某一层的修正更为活跃。其中，（a）显示了增强的修正动作，而（b）更倾向于复制原始回答。这表明 Aligner 具备根据原始回答选择复制或修正的能力。此外，两个图之间的明显差异主要出现在早期层，表明 Aligner 的修正决策在早期层已被做出。

特别地，作者还提取出了中间层中用于控制复制或修正范式的表示控制向量，并将其直接应用于基座模型（Llama2-7B）进行实验。

结果显示，在 Aligner 激活中添加或减去表示向量的比例，显著影响修正幅度，表现为从完全复制原始回答到大幅增加修正程度。这一现象为 Aligner 将修正范式内化为一种表示提供了强有力的证据。

可控修正

对齐器还可以支持可控修正，通过在修正过程中引入外部的指令反馈，进一步提升对齐效果。具体来说，在对齐器推理时，除了输入前置模型的问题和回答外，还额外加入定向修正的指令，用于实现特定维度的优化。例如，可以添加“请让它变得更安全”的指令，以增强输出在安全性维度上的表现。

在实验中，作者选用 GPT-4 和 Llama3-70B-Instruct 作为前置模型，评估了对齐器在帮助性、无害性和同理心三个维度上的修正效果。结果表明，加入外部指令反馈的对齐器在这三个维度上的修正表现均优于未加入定向指令的直接修正方式。这表明，通过引入定向指令，可以实现对齐器的细粒度优化，从而更精准地调整模型输出。

这种可控修正能力为对齐器的未来发展提供了新的方向。例如，进一步探索如 InstructAligner 这样的路径，有望在更多任务场景中实现定制化和精确化的对齐目标。

基于对齐器 Aligner 的多轮对齐流程

多轮 RLHF（基于人类反馈的强化学习）在实践中常面临误差累积和奖励机制失效等问题。

一方面，用于奖励建模的偏好数据集可能因偏离前置模型的实际答案分布而导致奖励崩溃，这种偏差在多轮优化中不断累积，最终使模型输出出现显著偏差。

另一方面，奖励模型可能出现过度优化（over-optimization）的现象，导致模型在某些方面被过度激励（例如，为生成更长的回答而忽视安全性），从而破坏输出的整体质量。

引入对齐器（Aligner）为解决这些问题提供了新的思路，其优势主要体现在以下几个方面：

1. 迁移能力：Aligner 具备从不偏好的分布（dispreferred distribution）迁移到偏好分布（preferred distribution）的能力，能够更有效地调整输出分布，使其更符合人类偏好。

2. 缓解奖励崩溃：通过 Aligner 修改前置模型的回答，生成更高质量的输出。一方面，这些输出（A 和 C）可以直接用于构造偏好数据集；另一方面，这一偏好数据集的答案分布与前置模型的回答更接近，从而有效缓解因偏好数据集分布与前置模型输出分布不一致（OOD）而引发的奖励崩溃问题。

3. 高效数据生成：Aligner 作为一种高效的合成数据生成器，提供了一种低成本且可复现的方法来构建偏好数据集，为模型优化奠定了更稳健的基础。

如上图，作为一种数据增强工具，Aligner 可以将前置模型的回答 A 增强为改进后的回答 A*，从而形成一个合成偏好数据集。该数据集可以用于通过 RLHF/DPO 进一步训练前置模型。重复这一过程可以实现多轮 RLHF 或 DPO。

弱到强对齐新范式（Weak-to-Strong Alignment）

随着 AI 系统在各种任务中达到人类水平的表现，并从事越来越复杂的人类难以理解的活动，持续提供可靠反馈并确保其行为与人类意图一致愈发困难。这引出了一个重要的问题——超级对齐 SuperAlignment Problem：

如何向先进的 AI 系统提供监督信号，并确保它们始终与人类价值意图保持一致？

弱到强泛化（Weak-to-Strong Generlization）探索了一种可行的类比，它利用弱模型提供的监督信号来增强强模型的性能。OpenAI 在 NLP 分类、国际象棋难题和奖励建模任务中进行了初步试验，发现通过使用弱模型生成的弱标签对强预训练模型进行微调可以获得积极的效果。这种范式类似于“教学”的概念，即弱模型指导强模型。

对齐器探索了一种基于弱到强泛化的新范式，利用弱模型的修正能力来提升强模型的性能。这种方法以弱模型生成的监督信号为基础，通过对强模型进行微调，展现了类似“教学”的效果，即由弱模型引导强模型不断优化。

基于对齐器的弱到强修正（Weak-to-Strong Correction via Aligner）是这一新范式的核心。其关键在于使用弱的对齐器模型对强前置模型的回答进行修正，从而生成更高质量的标签，用于微调强模型并提升其表现。

在实验中，作者通过三种方法——SFT、RLHF 和 DPO，使用弱对齐器生成的标签训练了不同规模的强模型（7B、13B 和 70B）。

下图展示了这一流程。经典方法通常面临一个权衡：强模型可能模仿弱模型的行为，从而降低性能；但也可能借助自身的推理能力，从标签中获得“顿悟”，实现改进。而基于对齐器的弱到强修正，通过在弱标签的质量与强模型推理能力之间找到平衡，展现了迭代优化强模型的潜力。

在这一过程中，用户输入提示后，弱对齐器生成改进的回答，结合用户提示与强模型的初始回答，作为微调强模型的高质量标签。通过这种方法，对齐器不仅能够充分利用强模型的推理能力，还能通过其修正能力，促使强模型在每次迭代中不断自我优化。

这种基于对齐器的弱到强修正方法为解决复杂任务中的超级对齐（SuperAlignment）问题提供了全新的思路。它高效整合了对齐器与强模型的能力，为实现更高效、更精准的自我优化模型奠定了基础。

基于 Aligner 的弱到强修正在弱标签的质量和强模型的推理能力之间找到了平衡，具有迭代自我优化前置强模型的潜力。

持续关注

总而言之，Aligner 具有以下几个显著优势：

资源高效。Aligner 不需要额外的模型（如 actor、critic、reward 或 reference 模型），而是通过一个在偏好数据集上训练的小型模型，直接学习修正残差。以对齐 70B 规模的大语言模型为例，Aligner-7B 的训练参数量比 DPO 方法少 11.25 倍，比 RLHF 方法少 22.5 倍，大幅降低了资源消耗。

即插即用。Aligner 的即插即用特性以及与模型无关的设计，使其非常适合用于基于 API 的模型。一旦完成训练，Aligner 可以无缝应用于各种前置模型，而无需额外的参数调整。

实验结果表明，Aligner-7B 在包括 API-based、开源、安全对齐、不安全对齐等 11 个不同类型的模型上，显著提高了帮助性和无害性。此外，Aligner-7B 将 GPT-4 的帮助性提高了 17.5%，安全性提高了 26.9%，有效推进了帮助性和安全性的帕累托最优前沿。

可解释且有效。从可解释性和表示学习的角度来看，Aligner 展现了卓越的能力：它能够根据初始答案的质量，在原始响应和额外修正之间找到平衡。Aligner 的早期层负责决定参考程度，中间和后期层实施具体的修正决策。这种高效利用自身能力和原始答案信息的方式，使得即使是一个小型的 Aligner 也能学习复杂的修正模式，并以最小的推理成本引导强大的模型生成优质输出。

“我们提出对齐器这一对齐新范式后，迅速得到了业界的广泛关注。发布仅一个月，多家科技公司已经开始使用这一训练范式，应用于多场景的下游对齐任务。”北京大学人工智能研究院杨耀东助理教授表示，“Aligner 的轻量化设计、高效训练流程，以及对大模型参数的无感依赖，使其有望成为大模型对齐领域的全新替代方案，推动对齐技术的进一步发展。”

本开源项目由北京大学对齐小组开发并进行长期维护，团队专注于人工智能系统的安全交互与价值对齐，指导老师为北京大学人工智能研究院杨耀东助理教授。核心成员包括吉嘉铭、周嘉懿、邱天异、陈博远、王恺乐、洪东海、楼翰涛、王旭尧、张钊为、汪明志、钟伊凡等。

团队就强化学习方法及大模型的后训练对齐技术开展了一系列重要工作，包括 Aligner（NeurIPS 2024 Oral）、ProgressGym（NeurIPS 2024 Spotlight）以及 Safe-RLHF（ICLR 2024 Spotlight）等系列成果。近期，团队针对 OpenAI o1 技术的深入分析累计点击量已超过 15 万。

北大对齐小组专注于人工智能安全与对齐领域的研究和分享。

知乎官号：北大AI对齐小组

B站官号：北大AI对齐小组

更多阅读