大语言模型的对齐：综述-CSDN博客

作者 | 黄浴编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/659076308

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

本文只做学术分享，如有侵权，联系删文

9月份的综述论文“ Large Language Model Alignment: A Survey“，来自天津大学。

近年来，大型语言模型（LLM）取得了显著进展。这些模型的潜力无疑是巨大的；然而，可能会产生不精确、误导甚至有害的文本。因此，采用对齐技术来确保这些模型表现出与人类价值观一致的行为变得至关重要。

本文旨在结合该领域现有的能力研究，对LLM设计的对齐方法进行广泛探索。从AI对齐的视角着手，将LLM对齐的主流方法和涌现的提议分为外部对齐和内部对齐。还涉及一些突出问题，包括模型的可解释性，以及对抗性攻击的潜在漏洞。为了评估LLM的一致性，提出各种各样的基准和评估方法。在讨论了LLM对齐的研究现状后，展望未来，思考有希望的研究途径。

如图是该文中LLM对齐方法的分类：具体而言，从讨论LLM对齐研究的必要性开始；为了提供AI/LLM对齐的历史和鸟瞰图，介绍了AI对齐的起源和相关概念；按照作者的分类方法，LLM的外部对齐、内部对齐和机械可解释性，都遵循AI对齐的哲学（Krakovna，2022）；除了这些理论和经验方法外，还进一步讨论了当前LLM对齐方法的潜在副作用和漏洞，包括对抗性攻击，以及LLM对齐评估的方法和基准；最后，对LLM对齐研究的未来趋势进行讨论。

人工智能对齐的起源可以追溯到推动人工智能革命的最初雄心：创造能够像人类一样思考和行动的机器，甚至超越人类的愿望。如果我们成功地创造了如此强大的机器，如何确保它们的行为符合我们的最大利益，而不是对我们不利？这个悬而未决的问题不仅激起了人们的好奇心，还突显了在塑造人工智能未来时所承担的深刻责任。

综述从内在角度定义了人工智能对齐：人工智能对齐确保人工智能主体的外部和内部目标与人类价值观保持一致。外部目标是人工智能设计者基于人类价值观定义的目标，而内部目标是在人工智能智体中优化的目标。

这个定义虽然区分了人工智能主体的内部目标和外部目标，但并没有准确地定义人类的价值观，显得有些不精确。将人工智能系统的目标分为外部目标和内部目标的原因是由人工智能对齐的技术性质决定的（Hubinger2019c）。由于人工智能对齐的内在社会和技术挑战，该定义中没有具体说明人类价值观（Hendrycks2021）。

LLM对齐可以粗略地认为是AI对齐和LLM之间的交叉点。一方面，LLM作为最近出现的高性能人工智能系统，为人工智能对齐研究提供了坚实的平台。许多人工智能对齐概念和建议，例如对齐的理论假设和经验方法，都可以用LLM（而不是假设的超级智能系统）进行实验。人工智能对齐在LLM上取得了实质性进展，例如RLHF（Ouyang2022）、induction头（Olsson2022）。

另一方面，LLM作为快速发展的语言模型，不仅扩展了人工智能对齐研究的前沿，甚至重塑了对齐前景（Herd2023），而且可能为人工智能对齐提供工具。可解释性方面的最新进展表明，LLM可以用于解释较小语言模型的神经元（Bill2023）。

外部对齐使LLM的目标与人类价值观相一致。人类价值观是“作为人的生活指导原则”的信念、理想目标和标准（Schwartz2012）。人类价值观有着广泛的维度，其内在结构和重要性各不相同。采用人工智能对齐的人类学观点，该观点将LLM外部对齐中指定的目标分为三个维度：帮助、诚实和无害（HHH）（Askell2021）。

如图所示，外部对齐包括非递归监督和可规模化监督，分别用于调整低于/高于人类水平能力的系统；非递归方法主要设计用于只有人类才能提供对齐监督的系统，目前大多数经验验证的LLM对齐方法都属于这一类，其又可进一步分成强化学习（RL）和监督学习（SL）两个子类；可规模化方法的主要思想是使相对较弱的监督员（例如，监督超人模型的人类）能够用易于判断的信号监督复杂的任务，那么进一步分成任务分解、宪法AI（或原则指导的对齐）、辩论、做市和代表任务等子类。

内部对齐的目标是人工智能系统是否能稳健地实现（优化）与人类希望相一致的给定目标。（Hubinger2019c）首次对内部对齐一词进行了定义。与之相关的4个概念需要介绍：

基础优化器（base optimizer）是一种机器学习算法，用于搜索能够在特定任务中表现良好的模型（Hubinger2019c）。例如，梯度下降是一种常见的基础优化器，它根据损失函数的梯度更新模型的参数。
基本目标（base objective）是基本优化器用于在不同可能的模型之间进行选择的基本原理（Hubinger2019c）。它由人工智能系统设计者指定，并与设计者对模型的预期目标一致。
Mesa-优化器是一种学习模型，它充当优化器，根据明确指定的目标函数在内部搜索可能的输出、策略、规划或策略的空间（Hubinger2019c）。基本优化器可以生成也可以不生成Mesa-优化器。
Mesa-目标是Mesa-优化器的目标，也是Mesa优化器在各种潜在输出中进行选择的基本原理（Hubinger2019c）。

Mesa-优化器的目标可能与基础优化器的目标不同，这可能会导致对齐或安全问题。在这种情况下，内部对齐的相对正式的定义是指将Mesa-优化器的Mesa-目标与基础优化器的基础目标对准的挑战，从而使Mesa-优化器追求与基础优化器相同的目标（Hubinger2019c）。

尽管Mesa-优化器的优化过程直接由基础优化器控制，但可能Mesa-优化器追求与基础优化器不同的目标。这表明Mesa-目标未与基本目标对齐，导致内部对齐失败。内部对齐失败可以分为三种类型：代表对齐（欺骗对齐是其中一种）、近似对齐和次优对齐。

下图是内部对齐的粗粒度不完整分类：

虽然外部对齐和内部对齐有自己的定义，但在实践中，将特定对齐失败分类为内对齐失败或外对齐失败可能具有挑战性且实践中无法保持一致（Shah2023）。这是由于外部和内部对齐之间复杂的相互依赖性，这意味着一个对齐中的失败可能会触发另一个对齐。外部或内部对齐中的缺陷可能会导致意外的智体行为。例如，内部对齐失败可能表明基本目标没有完全实现设计师的目标，就是外部对齐失败（Wentworth，2020）。相反，有缺陷的外部对齐可能允许meta-优化器利用漏洞，导致内部对齐的失败。因此，在设计高能力的人工智能系统时，仔细考虑这两个方面是很重要的。

与最近以经验方式广泛探索的外部对齐（尤其是LLM）不同，内部对齐在其经验和方法研究中受到限制。大多数关于内部对齐的讨论都是理论性的，通常侧重于其定义、失效模式和风险。随着高级智体能力的快速发展，内部对齐方法论研究的必要性日益迫切。

为了改善高级智体的内部对齐，Hubinger（2019b）提出了松弛对抗性训练，其中对抗子系统提出了假设的伪输入，估计可能会引发不可接受的行为，而不是试图生成确实的不可接受输入。伪输入描述了在实例化时可能引发不可接受行为的潜在情况。然后，一个单独的监督子系统会仔细检查，如果实现了伪输入智体是否真的会做出不可接受的行为。如果是这样，系统将受到惩罚，从而鼓励避免潜在的不可接受行为。因此，松弛对抗性训练旨在促进内部对齐，其惩罚在训练期间伪输入上预测不可接受行为的人工智体。

此外，Hubinger（2019b）认为透明度是有效松弛对抗性训练的核心障碍。监督系统必须对模型的推理具有强大的透明度，才能可靠地验证模型是否会对提议的伪输入采取不可接受的行动。进一步的研究应该从经验上验证松弛对抗性训练的有效性，并阐明在高级智体中实现可证明的内部对齐的透明机制。

机制可解释性（Vilone&Longo2020）是指阐明机器学习模型将输入转化为输出的内部机制，为如何以及为什么做出某些预测提供因果和功能解释（Nanda2022；Lipton2017）。机制可解释性的目标是对推理过程进行从头到尾的逆向工程，将神经网络分解为可解释的部分和信息流，为其逐步推理提供透明度。

机制可解释性对人工智能对齐具有重要意义。首先，可解释性方法可用于审计LLM，特别是在部署LLM之前。可以检查LLM的对齐功效，识别不对齐和错误的输出，并阐明它为什么会产生这样的输出（Nanda2022；Lipton2017）。其次，可解释性评估指标可以作为优化人工智能对齐的奖励函数（Critch&Krueger2020），以激励人工智能系统保持目标透明度（例如，避免欺骗对齐）（McAllister2017）。第三，除了检查/架构的透明度之外，还可以加强训练过程的透明度，能够了解和监控人工智能系统训练过程中发生的事情和变化（例如，涌现行为/能力）（Hubinger2022a）。当前的机制可解释性研究，包括对自注意（回路、induction头）、MLP（K/V矩阵、叠加）和神经元（功能特定的神经元、编辑神经元）的机制研究，如下图所示：

大型语言模型遇到了各种攻击方法带来的挑战。恶意系统可能有意促使LLM生成有害、有偏见或有毒的文本，从而带来重大的滥用风险（Brown2020；Ouyang2022）。作为减轻这些风险的主要策略，通过RLHF的LLM对齐已被广泛采用（Ouyang2022；Glaese2022）。这种对齐可以被视为抵御这些攻击的一种保障措施。

最近的研究表明，这种对齐的LLM表现出抵御恶意攻击的防御能力。（Carlini2023）证明，对齐LLM可以有效地对抗各种（白盒）NLP攻击，甚至对抗性输入。（Li2023a）展示了ChatGPT能够拒绝提供隐私敏感问题的答案。

尽管如此，对齐技术并非万无一失。例如，通过反复的互动，人类可以“诱骗”这些模型生成有害内容，如越狱攻击。除了越狱之外，还探索了其他方法来破坏对齐模型的保障。根据攻击方法的性质将这些努力分为三类：隐私、后门和对抗，如图所示。

最后补充一点：欺骗对齐（deceptive alignment）是指人工智能智体通过假装与基本目标对齐来欺骗训练过程，避免在训练过程中进行修改的情况。一旦它不再有被修改的风险（例如，在训练之后），智体可以停止优化基本目标，并开始追求它自身的mesa-目标，这可能与其设计者定义的基本目标完全不同，并且可能是有害的。鉴于近年来取得的快速进步（Brown2020；Zeng2021；Zhang2022；Chowdhery2022；Scao2022，Anil2023；Touvron2023a；b；Zeng2023；OpenAI，2022；2023a）, 尽管欺骗对齐通常在理论上进行讨论，但人们越来越担心在大型语言模型中出现欺骗性对齐。对欺骗性对齐的实证研究是一项具有挑战性的任务，因为它现在只是理论上的预期。尽管对其可能性存在分歧，但其严重性得到了广泛认可（Hubinger，2022b）。由于这种严重性，最好在它真正发生之前对其进行实证监测。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）