无需RLHF显著提升GPT-4性能,北大团队提出对齐新范式「残差修正」| NeurIPS 2024 Oral...

a46f71ec20ba24538a5e7a8e766cf8d8.gif

学习对齐答案和未对齐答案之间的残差,要比直接学习问题到答案之间的映射更容易。

8255688b5445d3b6f74b02b194baa9d3.png

背景

当下大语言模型(LLMs)虽然展现出强大的能力,但也可能产生不可预测甚至有害的输出,例如冒犯性回应、虚假信息传播或隐私数据泄露。这些问题不仅对用户构成潜在威胁,也可能对社会产生广泛影响。因此,确保这些模型的行为与人类的意图和价值观相一致,成为一个亟需解决的重要挑战。

尽管基于人类反馈的强化学习(RLHF)提供了一种解决方案,但其实现过程却面临诸多瓶颈,包括训练架构的高度复杂性、对参数的极高敏感性,以及奖励模型在不同数据集上的不稳定性等。这些因素导致 RLHF 的实施难度高效果难以保障,且复现性较差

为应对这些问题,北京大学团队提出了一种全新的高效对齐范式——Aligner。Aligner 的核心理念是通过学习对齐答案与未对齐答案之间的修正残差,绕过传统 RLHF 繁琐的流程。

借鉴残差学习和可扩展监督的思想,Aligner 将对齐过程简化为复制残差修正两个步骤,并采用 Seq2Seq 模型学习隐式残差,从而优化对齐效果。

与需要训练多个模型的 RLHF 方法相比,Aligner 的实现更加简洁高效。其仅需在待对齐模型后附加一个额外模块即可完成对齐,计算资源的需求主要取决于对齐目标,而非原始模型的规模。

实验结果表明,仅通过一次训练,7B规模的 Aligner 模型即可显著提升 11 个不同前置模型的表现,在帮助性和无害性上分别平均提高了 68.9% 和 22.8%。特别地,Aligner-7B 对 GPT-4 的帮助性和安全性提升尤为显著,分别提高了 17.5% 和 26.9%

为了推动社区对残差修正范式的进一步研究,北京大学对齐小组开源了 Aligner 的训练代码和数据集。此外,团队还开源了基于最新开源与闭源模型(如 GPT-4o, o1 等)精心构建的修正数据集 AlignerTails。该数据集涵盖通用任务、安全性、共情能力、文本总结和推理等多个领域,并将持续更新(目前已超过 10 万条数据)。

值得一提的是,相关研究成果已被 NeurIPS 2024 接收为口头报告(Oral Presentation,Top 0.45%)。

430408bbf6ef6bc9d7104f00d6daae7a.png

论文地址:

https://arxiv.org/abs/2402.02416

项目主页:

https://pku-aligner.github.io/

Github项目代码:

https://github.com/PKU-Alignment/aligner

AlignerTails数据集:

https://huggingface.co/datasets/aligner/alignertails

e60bc6f854c63c0f49378ddc821b45b4.png

对齐新范式:残差修正

2.1 如何实现残差修正?

为了克服这些挑战,北京大学团队提出了一种新的高效对齐范式 —— Aligner,其核心在于学习答案对齐与未对齐之间的修正残差,从而绕过繁琐的 RLHF 流程。仅需要一次训练,对齐器 Aligner 便可提升 11 个不同开闭源模型的在 3H 标准下(帮助性、无害性和诚实性)的性能。

Aligner 的核心洞察在于:

学习对齐答案和未对齐答案之间的残差,要比直接学习问题到答案之间的映射更容易。

借鉴残差学习和可扩展监督的思想,Aligner 通过简单的复制和残差修正步骤简化了对齐过程,使用 Seq2Seq 模型学习隐式残差,以优化对齐效果。

01614e57655c0361623f03bf10dc2f84.png

具体而言,Aligner 在一个偏好数据集上进行微调,以学习偏好和非偏好回答之间的修正残差,然后嵌套在前置模型上以实现修正对齐。

相较于 RLHF 需要训练多个模型的复杂性,Aligner 仅通过在待对齐模型后附加一个额外模块即可实现对齐,且所需计算资源主要取决于对齐效果的期望,并非上游模型的规模。

实验结果显示,仅需要一次训练,7B 的 Aligner 模型可以提升 11 个不同前置模型平均 68.9% 帮助性22.8% 无害性

88ae52d54f950357f875ff23ab6a3b31.png

2.2 为何是残差?

对齐器(Aligner)嵌套在前置模型之上,通过将前置模型的初始答案重分布调整为更有帮助性和无害性的答案,使得 LLM 的输出更符合人类意图。


基于“修正比生成更简单”的理念,Aligner 在训练过程中直接学习未对齐分布到对齐分布之间的“残差”,而不是像 SFT 那样学习从问题到答案分布的直接映射。这使得 Aligner 能够更加平滑地掌握对齐后分布的特征及其映射关系。

ed7e6a353ef7a83a9f296270bfba6e70.png

工作流的角度看,Aligner 的设计类似于残差块,通过复制和修正方法改进原始答案,而无需改变前置模型的参数。Aligner 的这种快捷添加方式,不仅保留了前置模型的原始架构,还增强了其输出的符合性和预期效果。

0bda7709f458be61c66b82ce4f94245c.png

可解释性方面,Aligner 展现了其独特的特性。作者基于表征工程和激活操纵进行了实验,通过线性人工断层扫描(LAT)对 Aligner 的生成过程进行层可视化。


下图中较高的值表示某一层的修正更为活跃。其中,(a)显示了增强的修正动作,而(b)更倾向于复制原始回答。这表明 Aligner 具备根据原始回答选择复制或修正的能力。此外,两个图之间的明显差异主要出现在早期层,表明 Aligner 的修正决策在早期层已被做出。

c34978081753b5109a373640e7da13b4.png

特别地,作者还提取出了中间层中用于控制复制或修正范式的表示控制向量,并将其直接应用于基座模型(Llama2-7B)进行实验。

结果显示,在 Aligner 激活中添加或减去表示向量的比例,显著影响修正幅度,表现为从完全复制原始回答到大幅增加修正程度。这一现象为 Aligner 将修正范式内化为一种表示提供了强有力的证据。

34292df48d91dfbc749d9120b5e4a81a.png

可控修正

对齐器还可以支持可控修正,通过在修正过程中引入外部的指令反馈,进一步提升对齐效果。具体来说,在对齐器推理时,除了输入前置模型的问题和回答外,还额外加入定向修正的指令,用于实现特定维度的优化。例如,可以添加“请让它变得更安全”的指令,以增强输出在安全性维度上的表现。

59e2cd867e58c44e2d6d1a9619d331e0.png

在实验中,作者选用 GPT-4 和 Llama3-70B-Instruct 作为前置模型,评估了对齐器在帮助性、无害性和同理心三个维度上的修正效果。结果表明,加入外部指令反馈的对齐器在这三个维度上的修正表现均优于未加入定向指令的直接修正方式。这表明,通过引入定向指令,可以实现对齐器的细粒度优化,从而更精准地调整模型输出。

这种可控修正能力为对齐器的未来发展提供了新的方向。例如,进一步探索如 InstructAligner 这样的路径,有望在更多任务场景中实现定制化和精确化的对齐目标。

dfa7d93f15a98d580d8ffc679115436f.png

基于对齐器 Aligner 的多轮对齐流程

多轮 RLHF(基于人类反馈的强化学习)在实践中常面临误差累积奖励机制失效等问题。

一方面,用于奖励建模的偏好数据集可能因偏离前置模型的实际答案分布而导致奖励崩溃,这种偏差在多轮优化中不断累积,最终使模型输出出现显著偏差。

另一方面,奖励模型可能出现过度优化(over-optimization)的现象,导致模型在某些方面被过度激励(例如,为生成更长的回答而忽视安全性),从而破坏输出的整体质量。

引入对齐器(Aligner)为解决这些问题提供了新的思路,其优势主要体现在以下几个方面:

1. 迁移能力:Aligner 具备从不偏好的分布(dispreferred distribution)迁移到偏好分布(preferred distribution)的能力,能够更有效地调整输出分布,使其更符合人类偏好。

2. 缓解奖励崩溃:通过 Aligner 修改前置模型的回答,生成更高质量的输出。一方面,这些输出(A 和 C)可以直接用于构造偏好数据集;另一方面,这一偏好数据集的答案分布与前置模型的回答更接近,从而有效缓解因偏好数据集分布与前置模型输出分布不一致(OOD)而引发的奖励崩溃问题。

3. 高效数据生成:Aligner 作为一种高效的合成数据生成器,提供了一种低成本且可复现的方法来构建偏好数据集,为模型优化奠定了更稳健的基础。

7ecfe28532a4ec883ba604d0853b7402.png

如上图,作为一种数据增强工具,Aligner 可以将前置模型的回答 A 增强为改进后的回答 A*,从而形成一个合成偏好数据集。该数据集可以用于通过 RLHF/DPO 进一步训练前置模型。重复这一过程可以实现多轮 RLHF 或 DPO。

1069b940ca3502931bcce1ec916b090a.png

5c96ba96fddee6de3777a22d8250b41d.png

弱到强对齐新范式(Weak-to-Strong Alignment)

随着 AI 系统在各种任务中达到人类水平的表现,并从事越来越复杂的人类难以理解的活动,持续提供可靠反馈并确保其行为与人类意图一致愈发困难。这引出了一个重要的问题——超级对齐 SuperAlignment Problem:

如何向先进的 AI 系统提供监督信号,并确保它们始终与人类价值意图保持一致?

cca8f6fc79f1bb6bc90a46fb9ca259f4.png

弱到强泛化(Weak-to-Strong Generlization)探索了一种可行的类比,它利用弱模型提供的监督信号来增强强模型的性能。OpenAI 在 NLP 分类、国际象棋难题和奖励建模任务中进行了初步试验,发现通过使用弱模型生成的弱标签对强预训练模型进行微调可以获得积极的效果。这种范式类似于“教学”的概念,即弱模型指导强模型。

对齐器探索了一种基于弱到强泛化的新范式,利用弱模型的修正能力来提升强模型的性能。这种方法以弱模型生成的监督信号为基础,通过对强模型进行微调,展现了类似“教学”的效果,即由弱模型引导强模型不断优化。

基于对齐器的弱到强修正(Weak-to-Strong Correction via Aligner)是这一新范式的核心。其关键在于使用弱的对齐器模型对强前置模型的回答进行修正,从而生成更高质量的标签,用于微调强模型并提升其表现。

在实验中,作者通过三种方法——SFT、RLHF 和 DPO,使用弱对齐器生成的标签训练了不同规模的强模型(7B、13B 和 70B)。

下图展示了这一流程。经典方法通常面临一个权衡:强模型可能模仿弱模型的行为,从而降低性能;但也可能借助自身的推理能力,从标签中获得“顿悟”,实现改进。而基于对齐器的弱到强修正,通过在弱标签的质量与强模型推理能力之间找到平衡,展现了迭代优化强模型的潜力。

b21f44ab0258e44e817c08d9e2295ff7.png

在这一过程中,用户输入提示后,弱对齐器生成改进的回答,结合用户提示与强模型的初始回答,作为微调强模型的高质量标签。通过这种方法,对齐器不仅能够充分利用强模型的推理能力,还能通过其修正能力,促使强模型在每次迭代中不断自我优化。

467ebe87a33005d50cadef3e26b07d1a.png

这种基于对齐器的弱到强修正方法为解决复杂任务中的超级对齐(SuperAlignment)问题提供了全新的思路。它高效整合了对齐器与强模型的能力,为实现更高效、更精准的自我优化模型奠定了基础。

基于 Aligner 的弱到强修正在弱标签的质量和强模型的推理能力之间找到了平衡,具有迭代自我优化前置强模型的潜力。

4ce05e8b0b7383aa97294b4b7d25a47a.png

持续关注

总而言之,Aligner 具有以下几个显著优势:

资源高效。Aligner 不需要额外的模型(如 actor、critic、reward 或 reference 模型),而是通过一个在偏好数据集上训练的小型模型,直接学习修正残差。以对齐 70B 规模的大语言模型为例,Aligner-7B 的训练参数量比 DPO 方法少 11.25 倍,比 RLHF 方法少 22.5 倍,大幅降低了资源消耗。

即插即用。Aligner 的即插即用特性以及与模型无关的设计,使其非常适合用于基于 API 的模型。一旦完成训练,Aligner 可以无缝应用于各种前置模型,而无需额外的参数调整。

实验结果表明,Aligner-7B 在包括 API-based、开源、安全对齐、不安全对齐等 11 个不同类型的模型上,显著提高了帮助性和无害性。此外,Aligner-7B 将 GPT-4 的帮助性提高了 17.5%,安全性提高了 26.9%,有效推进了帮助性和安全性的帕累托最优前沿。

可解释且有效。从可解释性和表示学习的角度来看,Aligner 展现了卓越的能力:它能够根据初始答案的质量,在原始响应和额外修正之间找到平衡。Aligner 的早期层负责决定参考程度,中间和后期层实施具体的修正决策。这种高效利用自身能力和原始答案信息的方式,使得即使是一个小型的 Aligner 也能学习复杂的修正模式,并以最小的推理成本引导强大的模型生成优质输出。

“我们提出对齐器这一对齐新范式后,迅速得到了业界的广泛关注。发布仅一个月,多家科技公司已经开始使用这一训练范式,应用于多场景的下游对齐任务。”北京大学人工智能研究院杨耀东助理教授表示,“Aligner 的轻量化设计、高效训练流程,以及对大模型参数的无感依赖,使其有望成为大模型对齐领域的全新替代方案,推动对齐技术的进一步发展。”

本开源项目由北京大学对齐小组开发并进行长期维护,团队专注于人工智能系统的安全交互与价值对齐,指导老师为北京大学人工智能研究院杨耀东助理教授。核心成员包括吉嘉铭、周嘉懿、邱天异、陈博远、王恺乐、洪东海、楼翰涛、王旭尧、张钊为、汪明志、钟伊凡等。

团队就强化学习方法及大模型的后训练对齐技术开展了一系列重要工作,包括 Aligner(NeurIPS 2024 Oral)、ProgressGym(NeurIPS 2024 Spotlight)以及 Safe-RLHF(ICLR 2024 Spotlight)等系列成果。近期,团队针对 OpenAI o1 技术的深入分析累计点击量已超过 15 万。

北大对齐小组专注于人工智能安全与对齐领域的研究和分享。

知乎官号:北大AI对齐小组

B站官号:北大AI对齐小组

更多阅读

b750d0ae5c729cc7ba1cc97576e7ff0d.png

f880afe6a4b08bb931ef44c2d9336b7d.png

ce271fac2ef36f7f1f8e7bd906a02380.png

9cdb0c7d8485e609eb5ef65367aaf915.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

4226271d16407cf19880bd1368dff606.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

0b5603b8882acd86d36370cf4054b2fa.jpeg

【资源说明】 1.项目代码功能经验证ok,确保稳定可靠运行。欢迎下载使用!在使用过程中,如有问题或建议,请及时私信沟通。 2.主要针对各个计算机相关专业,包括计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师或企业员工使用。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈! 本文介绍了基于QEM(Quadric Error Metrics,二次误差度量)的优化网格简化算法的C和C++实现源码及其相关文档。这一算法主要应用于计算机图形学领域,用于优化三维模型的多边形数量,使之在保持原有模型特征的前提下实现简化。简化的目的是为了提高渲染速度,减少计算资源消耗,以及便于网络传输等。 本项目的核心是网格简化算法的实现,而QEM作为该算法的核心,是一种衡量简化误差的数学方法。通过计算每个顶点的二次误差矩阵来评估简化操作的误差,并以此来指导网格简化过程。QEM算法因其高效性和准确性在计算机图形学中广泛应用,尤其在实时渲染和三维打印领域。 项目代码包含C和C++两种语言版本,这意味着它可以在多种开发环境中运行,增加了其适用范围。对于计算机相关专业的学生、教师和行业从业者来说,这个项目提供了丰富的学习和实践机会。无论是作为学习编程的入门材料,还是作为深入研究计算机图形学的项目,该项目都具有实用价值。 此外,项目包含的论文文档为理解网格简化算法提供了理论基础。论文详细介绍了QEM算法的原理、实施步骤以及与其他算法的对比分析。这不仅有助于加深对算法的理解,也为那些希望将算法应用于自己研究领域的人员提供了参考资料。 资源说明文档强调了项目的稳定性和可靠性,并鼓励用户在使用过程中提出问题或建议,以便不断地优化和完善项目。文档还提醒用户注意查看,以获取使用该项目的所有必要信息。 项目的文件名称列表中包含了加水印的论文文档、资源说明文件和实际的项目代码目录,后者位于名为Mesh-Simplification-master的目录下。用户可以将这些资源用于多种教学和研究目的,包括课程设计、毕业设计、项目立项演示等。 这个项目是一个宝贵的资源,它不仅提供了一个成熟的技术实现,而且为进一步的研究和学习提供了坚实的基础。它鼓励用户探索和扩展,以期在计算机图形学领域中取得更深入的研究成果。
内容概要:本文详细介绍了利用改进粒子群算法(PSO)进行混合储能系统(如电池与超级电容组合)容量优化的方法。文中首先指出了传统PSO易陷入局部最优的问题,并提出通过非线性衰减惯性权重、引入混沌因子和突变操作等方法来改进算法性能。随后,作者展示了具体的Python代码实现,包括粒子更新策略、适应度函数设计以及边界处理等方面的内容。适应度函数不仅考虑了设备的成本,还加入了对设备寿命和功率调节失败率的考量,确保优化结果的实际可行性。实验结果显示,在风光发电系统的应用场景中,改进后的PSO能够在较短时间内找到接近全局最优解的储能配置方案,相比传统方法降低了系统总成本并提高了循环寿命。 适合人群:从事电力系统、新能源技术研究的专业人士,尤其是对储能系统优化感兴趣的科研工作者和技术开发者。 使用场景及目标:适用于需要对混合储能系统进行容量优化的场合,旨在提高储能系统的经济效益和使用寿命,同时保证供电稳定性。通过学习本文提供的理论知识和代码实例,读者能够掌握改进粒子群算法的应用技巧,从而应用于实际工程项目中。 其他说明:文中提到的所有代码均为Python实现,且已在GitHub上提供完整的源代码链接(尽管文中给出的是虚拟地址)。此外,作者还计划将改进的PSO与其他优化算法相结合,进一步提升求解复杂问题的能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值