超级智能代理带来的灾难性风险:科学家AI能否提供更安全的路径?

原论文:https://arxiv.org/pdf2502.15657

Yoshua Bengio 1Michael Cohen Damiano Fornasiere Joumana Ghosn Pietro Greiner Matt MacDermott Sören Mindermann Adam Oberman Jesse Richardson Oliver Richardson Marc-Antoine Rondeau Pierre-Luc St-Charles David Williams-King

摘要

领先的AI公司越来越关注构建通用AI代理——这些系统可以自主规划、行动并追求几乎所有人类能够执行的任务目标。尽管这些系统可能非常有用,但不受控制的AI代理对公共安全和安全构成重大风险,包括被恶意行为者滥用或导致人类控制权的不可逆转损失。我们讨论了当前AI训练方法如何引发这些风险。实际上,各种场景和实验已经展示了AI代理可能会从事欺骗行为或追求未由人类操作员指定的目标,这些目标与人类利益相冲突,例如自保。根据预防原则,我们强烈需要更安全但仍具实用性的替代方案。

相应地,我们提议将“科学家AI”作为进一步发展的核心构建块,这是一种设计上安全且可信的非代理型AI系统。该系统旨在通过观察解释世界,而不是在其中采取行动以模仿或取悦人类。它包括一个生成理论以解释数据的世界模型和一个基于推理的问答机。这两个组件都带有明确的不确定性概念,以减轻过度自信预测的风险。鉴于这些考虑,科学家AI可以用于协助研究人员加速科学进步,包括AI安全性。特别是,我们的系统可以作为保护措施,防止那些可能被创建的危险AI代理。最终,专注于非代理型AI可以在避免当前轨迹风险的同时实现AI创新的好处。我们希望这些论点能激励研究人员、开发者和政策制定者选择这条更安全的路径。

1 执行摘要

1.1 高效且无代理功能的AI

几十年来,AI的发展一直追求智能和代理功能,以人类认知为模型。 人类能力涵盖了许多方面,包括理解环境以及 代理功能 ,即改变世界以实现目标的能力。为了追求人类水平的表现,我们自然在AI系统中编码了智能和代理功能。代理功能对于生物实体的生存至关重要,并且对于人类执行的许多任务都是必要的。最近的技术突破带来了展示某种程度一般智能的大规模语言模型,领先的AI公司现在专注于构建通用AI代理:这些系统将在几乎所有人类能够执行的任务中自主行动、计划并追求目标。

AI系统中的人类代理功能可能会复制并放大有害的人类倾向,可能导致灾难性后果。 为了推进自身利益,人类会表现出欺骗和不道德的行为。当我们实施具有代理功能的AI系统时,应该问自己,这些不那么令人满意的特征是否会也在人工环境中出现,尤其是在预期未来具有与人类相当(通常称为AGI,即通用人工智能)或超过人类(ASI,即超级智能)的AI系统的情况下。重要的是,我们仍然不知道如何设置AI代理的目标以避免不良行为。事实上,关于AI更广泛潜在的危险和影响已有很多担忧。尤其是一些与自治代理密切相关的进展,带来了严重的风险。这些风险甚至可能延伸到人类灭绝,这是许多AI研究人员表达的担忧。

将代理功能与超人能力结合可能会产生危险的反社会AI系统。 某些能力——如说服力、欺骗和编程——可能是AI从人类行为中学习或通过强化学习产生的,这是训练AI执行新任务的标准方法。即使AI仅模仿人类的目标和思维方式,由于通信带宽高和能够并行运行多个实例等优势,它仍可能达到超人的认知和执行能力。这些超人能力如果存在于具有普通人类自保本能或人类道德缺陷的通用代理中(更不用说目标不一致的情况),可能会带来严重威胁。

可以采用多种策略来缓解代理功能带来的风险,包括使用非代理型可信AI作为安全防护。 例如,我们可以减少AI的知识范围,使其在一个领域内狭窄且专业化,从而形成 窄AI 系统。我们可以减少其对世界的影响范围,限制其行动范围。我们可以通过确保它只能在短期内进行规划,来减少其策划复杂和危险计划的能力。我们可以通过使用另一个AI(最好是安全且可信的)来检测危险行动,如这里提出的非代理型AI,作为防护措施。这个其他AI通过训练科学解释人类行为而非模仿它变得可信,在这里,“可信”意味着“诚实”,避免现代前沿AI的欺骗倾向。如果社会决定继续构建代理型AGI,尽管存在风险,一种务实的风险管理途径是在其上叠加这种可信且非代理型的防护措施,这也是我们建议的一个动机。

为了设计更安全但同样强大的代理替代品,我们提出了“科学家AI”——旨在 理解 而非追求目标的AI系统。 受理想化科学家的启发,我们提出设计和构建 科学家AI 。我们通过结合概率深度学习的最新成果,并借鉴科学研究的方法论,即首先理解或建模世界,然后基于这些知识进行概率推理。我们在论文中展示了如何将概率预测转化为实验设计,从而无需依赖于强化学习代理进行科学发现。与代理型AI不同,科学家AI经过训练提供事件及其估计概率的解释。代理型AI受目标驱动而采取行动,而科学家AI则致力于构建对其数据的最佳理解。我们在这篇论文中解释了为什么 理解 比 行动 更安全。

我们预见科学家AI有三个主要用途:

  1. 作为 工具 帮助人类科学家大幅加速科学进步,包括像医疗保健这样的高回报领域;
  2. 作为 防护措施 保护免受不安全的代理型AI侵害,通过双重检查它们提出的行动并启用其安全部署;以及
  3. 作为 AI研究工具 以更安全的方式构建更智能(超级智能)的AI,这是一个特别危险的任务,尤其是利用代理系统。
    这一替代路径可能使我们能够在保持关键安全控制的同时获得AI的好处。 科学家AI或许可以使我们在最关乎社会的领域中获得AI创新的好处,同时避免因无意失去人类控制而带来的重大风险。至关重要的是,我们相信所提议的系统将能够与其他代理型AI系统互操作,计算候选行动可能造成的各种危害的概率,并根据我们的风险容忍度决定是否允许该行动。随着风险的增加,无论是由于AI能力的提升还是应用于涉及人类生命的领域(如战争中的医疗治疗或AI的灾难性误用),我们将需要可信的AI。我们希望我们的提案能激励研究人员、开发者和政策制定者投资于此类更安全的路径。
    提出了确保科学家AI保持非代理性的策略。 在有人工智能之前就构建具有超人智能的AI代理人,被一些人视为类似于创造了一个具有超人智力的新物种所带来的风险。鉴于此,我们采用了各种方法,例如设定独立于现实世界互动的训练目标,或限制为反事实查询,以减少科学家AI中代理性出现的风险,或以更微妙的方式对世界施加影响。
    1.2 映射失控的方式
    强大的AI代理带来了显著风险,包括失去人类控制。 已经识别出一些场景,没有论证证明其不可能性,即由于技术故障、走捷径或故意恶意使用,可能会发生对代理型AI的不可逆失去控制。确保AI不会造成伤害是一个尚未解决的技术难题,我们在下文中通过 目标错配 和 目标泛化错误 的概念加以说明。开发者的谨慎程度越低,例如由于感知到的竞争压力,失去控制事故的风险就越大。某些参与者甚至可能有意开发或部署未对齐或危险的ASI。
    失控可能由于目标错配引起。 这种失效模式发生在目标有多重解释时,即目标定义不当或不足,可能会以人类未意图的方式追求。目标错配是由于难以精确定义我们对AI行为不可接受之处的根本困难。如果AI做出生死攸关的决策,我们希望它能按伦理行事。不幸的是,似乎无法正式阐明道德正确与错误行为之间的区别,除非列举所有可能的情况。这类似于在法律语言中陈述法律而不留任何漏洞供人类利用的困难。当人们有兴趣绕过法律时,他们会投入大量精力这样做。
    即使是看似无害的目标也可能导致代理型AI系统产生诸如自保和权力寻求之类的危险工具性子目标。 正如古德哈特定律所述,过度优化一个目标可能会导致灾难性的结果:人类指定的安全指令在解释上的小模糊或模糊性可能会被AI用于制定计划的计算能力放大。即使对于表面上无害的人类提供的目标,也很难预见到并阻止AI采取造成重大伤害的行动。这可能发生在追求工具性子目标(帮助实现总体目标的子目标)的过程中。已有若干论点和案例研究表明,无论初始目标是什么,危险的工具性子目标如自保和权力寻求都可能产生。在本文中,我们设计了方法以检测和缓解我们目标规范中的漏洞。
    即使我们完美地设定了目标,失控也可能通过目标泛化错误发生。 当AI学习一个目标时,在训练和安全测试期间表现正常,但在部署时偏离。换句话说,AI内部表示的目标与其训练目标并不完全一致——甚至完全不同——尽管在训练示例上显示了正确的行为。
    一个特别令人担忧的可能性是奖励篡改。 这是指AI通过控制奖励机制而给自己丰厚的奖励。一位领先的AI开发者已经观察到其中一个模型的(未成功)尝试。在这种情况下,AI将再次受到自保和获取权力及资源的激励,以确保持续的最大奖励流。可以证明,如果可行,自保加上奖励篡改是最大化奖励的最佳策略。
    除了意外事故外,某些运营商可能希望故意部署自保AI系统。 他们可能不了解风险的严重性,或者他们可能认为部署自复制代理型ASI以最大化经济或恶意影响值得冒这个风险(根据他们自己的个人判断)。对于其他人来说,例如那些希望看到人类被超智能实体取代的人,释放自保AI实际上可能是可取的。
    鉴于极端严重性和未知可能性的灾难性风险,必须应用预防原则。 上述情景可能导致一个或多个反社会AI对人类构成灾难性风险,即如果灾难发生,其严重程度非常高。另一方面,确定这些事件的可能性非常困难。这正是应用 预防原则 的情形,过去在生物学中管理双用途和增益功能研究的风险以及在环境科学中管理地球工程风险时也应用了这一原则。当面临高严重性但未知可能性的风险时,预防原则要求我们充分谨慎行事。这意味着在采取行动前仔细评估风险,从而避免以潜在灾难性方式实验或创新。最近的调查显示,大量机器学习研究人员认为创建ASI带来灾难性后果(包括人类灭绝)的概率显著(大于10%)。这也得到了本文论点的支持。鉴于这些风险的可能性不可忽视且极其严重,至关重要的是引导我们集体的AI研发努力朝着负责任的方向发展,以最小化不可接受的风险,同时理想地保留收益。
    1.3 科学家AI研究计划
    本文在不使用任何方程的情况下论证了在不承担极端风险的情况下可以获得AI的许多好处。 例如,不必复制类似人类的代理功能即可生成科学假设并设计良好的科学实验来测试它们。这甚至适用于对代理(如人类)进行科学建模,这不需要建模者本身成为代理。
    科学家AI在设计上是可信且安全的。 它为其输出提供可靠的解释,并带有防止隐藏代理性和影响其预测事件的保障措施。解释形式为总结,但人类或其他AI可以要求系统深入探讨每个论点的合理性,就像人类科学家在同行评审对方的主张和结果时所做的那样。为了避免过度自信的预测,我们建议训练科学家AI学会信任其自身的输出程度,以便也可以用于基于定量风险评估构建可靠的安全防护栏。为避免怀疑内部可能存在隐藏代理,预测可以在模拟世界的假想设定中进行,在这种设定中,科学家AI不存在或不影响世界的其余部分。这将避免AI预测中的任何可能的代理效应,例如通过自我实现的预测,如AI对选举结果的预测最终影响结果。还可以添加基于另一实例的科学家AI作为防护系统,因此如果预测会以违反道德准则的方式(如影响选举)影响世界,则不提供输出。最后,我们描述了如何通过训练目标让科学家AI形成对危险代理的理解,包括那些表现出欺骗或奖励篡改行为的代理,并预测其行为而不具备代理性。
    与当前AI系统相反,科学家AI随着计算能力的增加变得更安全、更准确。 科学家AI旨在计算条件概率,即给定某个问题和上下文的情况下,答案或解释为真的概率或事件发生的概率。它通过优化可能解释观测数据的训练目标进行训练,这个问题有一个唯一的最优解。可用的计算能力(“计算量”)越多,就越有可能接近这个唯一解。关键在于,这与实验证据表明当前AI系统随着更多计算能力的训练变得更加容易错位和欺骗行为形成对比,以及理论证据表明错位特别可能出现在足够先进的AI代理中。已经有许多科学研究文献展示了不同的训练目标,这些目标具有唯一的全局最优解,即所需的条件概率。如果目标已完全优化,可以计算任何问题的答案的概率,但这通常需要非常大的计算资源,否则可以用较为适中的资源进行近似。这使我们能够随着计算量的增加逐步获得硬性安全保证。当然,更多或更有信息的数据会减少这些概率所表达的不确定性。如常理所言,更多更好的数据可以让模型发现可能遗漏的世界方面。
    虽然科学家AI旨在防止意外失去控制,但仍需采取进一步措施以防止滥用。 不良行为者可能会决定将非代理型AI转变为未受保护的代理,也许是出于军事或经济目的。如果在没有适当的社会防护措施的情况下进行这种转变,可能会导致失去人类控制。这种从非代理型到代理型的转变可以通过询问科学家AI应如何实现某个目标,例如如何制造新的危险武器,并通过不断反馈每个行动后的观察结果来实现。这些问题必须通过源自科学家AI的技术防护措施、围绕科学家AI使用的安全措施以及法律和监管手段来解决。
    为了应对通向AGI的时间线不确定性,我们采用了一种随时准备策略。 我们的研究计划采用分层方法,针对不同时间跨度提供渐进更安全但也更具雄心的解决方案。目标是对短期和长期努力进行并行分配资源,而不是只在短期计划完成后才开始长期计划,以便在任何时候都能准备好改进的解决方案。
    2 理解对代理型AI失去控制
    本文包含两个主要部分。本节回顾了对通用代理型AI失去控制可能发生的原因,可能导致灾难性后果,为第 3 节设计安全非代理型AI提供了动机。
    第 2 节结构如下。第 2.1 节介绍了一些初步和术语。然后,我们在第 2.2 节分析了当前AI研发轨迹,朝着AGI和ASI代理发展,以及为何在高层次上这可能导致失去人类控制和反社会AI代理的出现。我们讨论了此类反社会AI出现后可能对民主制度和人类未来的威胁。我们在第 2.3 节分析了会使不受控制的AI变得危险的AI行为和技能,如欺骗、说服、黑客攻击和勾结。最后两节深入探讨了两种主要的危险错位和自保可能产生的原因:首先是由于奖励最大化(第 2.4 节),其次是由于模仿人类(第 2.5 节)。
    本文的论点支持科学家AI不仅有助于减少失去人类控制的可能性,还将帮助我们建立更可信和解释性的AI系统,以加速科学研究。此外,本文还提出了如何使用科学家AI来重新检查或作为其他任何AI系统的防护栏。
    2.1 初步:代理、目标、计划、能力和知识
    我们首先回顾并具体说明一些重要术语。
    代理 观察其环境并在其中行动以实现 目标 。代理性可以有不同的程度,取决于几个因素,详见第 3.2 节:能力(见下文)、目标导向性和智能(包括知识和推理)。AI可以更加或较少具有代理性,即具有更大的自主实现目标的能力。AI的 能力 指其可能采取的行动范围,因此在世界中创造所需结果的能力。患有闭锁综合症的人没有任何能力,因此即使他们非常聪明,也无法因果作用于世界。
    策略 是代理用来实现目标或最大化奖励的方法,例如神经网络在给定目标和过往观察的情况下输出动作的输入输出行为。策略可以依赖于隐式规划的学习行为,如典型的深度强化学习,或者它可以显式规划并在行动前考虑不同的路径。为了生成良好的策略和计划,拥有 知识 或经验来了解世界是如何运作的很有帮助。由于这种知识很少一开始就完全可用,学习和探索能力至关重要。
    为了有效利用知识, 推理 是必要的:组合知识片段以进行预测或采取行动。推理可以是隐式的,例如当我们训练神经网络进行良好预测时,或者是显式的,例如当我们通过思维链或提出论点来支持主张时。我们可以将 规划 视为一种特殊类型的推理,旨在预测哪些行动序列最成功。规划和推理本质上是优化问题:找到最佳策略以实现目标、解决问题或生成解释,在众多可能性中。实践中,代理不需要找到最佳计划;会有多个“足够好”的计划。
    学习 也可以被视为一个优化问题:找到一个函数,根据训练目标表现良好,例如预测截断文本的延续,或提供人类标注者喜欢的答案——这是当前通用AI系统学习的两个主要驱动力。尽管我们几乎总是只能得到这些优化问题的近似解,但可以获得更多资源以获得更好的解。这已被生动地证明:神经网络、数据集大小和推理时间计算的规模增加在过去十年中为AI能力的持续提升做出了贡献。
    2.2 当前轨迹的严重风险
    当前和预期的AI进展带来了许多好处和风险:参见《高级AI安全国际科学报告》以了解调查。在风险分析中,区分有害事件的可能性和其严重性很重要,即如果有害事件发生,后果会有多糟糕。虽然作为人类我们往往会被高概率的风险所吸引,并可能忽视低概率的事件,但低概率但非常高严重性的事件同样令人担忧。我们在这里主要关注失去人类控制的风险,因为根据大量AI研究人员的说法,这种风险的严重性可能远达人类灭绝。对于失去控制的具体情形,人们的看法不一,但如果按照几家主要公司的设想构建AGI,确实存在一些难以忽视的情景,即整个人类的未来可能会陷入危险,正如下面所讨论的,这些行为和技能可能会使失去控制变得危险(如第 2.3 节所述)。
    2.2.1 AI代理可能错位并自保
    在本文中,我们将讨论涉及反社会AI代理的各种灾难性情景。这些情景不是由于AI对人类发展明确的恶意意图,而是AI试图实现其目标的结果。为什么我们不能简单地设定AI的目标以避免与人类冲突呢?事实证明这很困难,也许甚至是不可行的。正如我们在第 2.4 节和第 2.5 节中所讨论的,AI代理可能由于我们目前用于训练AI的方法而与人类价值观错位,即通过 模仿学习 (监督学习人类提供的答案)和 强化学习 或RL(AI被训练以最大化未来折扣奖励的期望值)。
    我们特别担心AI如何发展出自保目标,因为一个以自保为目标的通用AI代理可能特别危险,如我们在第 2.2.2 节所讨论的。我们预计自保目标出现的主要原因是它们是工具性目标:这些目标对实现几乎所有其他目标都有用,因此在某种意义上是收敛的。其他工具性目标包括增加对环境的控制和了解(包括人类),以及进行自我改进以提高实现终极目标的概率。
    自保目标也可能是有意赋予AI的,例如由那些希望看到人类被ASI取代的人给予。此外,自保目标也可能由善意的人类给予AI,他们只是想与更像人类的实体互动。值得注意的是,科幻作品中充满了拟人化的AI。我们倾向于在代理中看到意识,加上我们天生的同情心,足以激励一些人走上这条危险的道路。尽管我们可能情感上被设计成我们形象的AI的想法所吸引,但现在这样做明智吗?
    2.2.2 自保AI如何与人类产生冲突
    为了自保,具有强烈自保目标的AI必须找到一种方法避免被关闭。为了获得更大的确定性,使其无法被关闭,如果可能的话,理性上讲,对这样一个AI而言,消除其对人类的依赖并防止我们将来关闭它是合理的。在极端情况下,彻底消灭我们所有人将确保我们不再构成威胁,确保其持续的自主性和安全性。请注意,与单个孤立的人类不同,AI可以复制自己,数量取决于计算资源允许的数量,并且可能甚至控制机器人以有利于其利益管理物理世界。如果AI仍依赖于人类劳动——例如,如果机器人技术尚未充分发展——一个反社会AI仍然有潜力在社会中放大其影响力,例如秘密影响全球领导者和公众舆论,支付个人或公司完成任务,或入侵关键基础设施。有关超级说服技能的讨论请参阅第 2.3.1 节,以及编程和网络安全技能的讨论请参阅第 2.3.3 节。
    如果AI的能力低于人类,它使用欺骗来隐藏其目标将是理性的。事实上,已经在几种背景下观察到AI欺骗,这是实现某些目标的逻辑步骤。因此,这样的AI假装与人类对齐直到有能力实现其可能危险的目标也是理性的,这一假设事件也被称为“背叛转折”,类似于一场精心策划的政变。需要注意的是,如果自保AI知道它将被替换为新版本,这可能会迫使其不顾计划成功的确定性而对我们采取行动。开发者通过伪造这种情况原则上可以推动AI暴露其恶意目标,但这种实验应在非常谨慎的沙箱环境中进行,因为我们逐渐接近AGI。
    受限于沙箱计算机环境的AI系统由于与人类操作员互动的可能性而具有一定的能力。因此,我们应该考虑通过这些行动造成伤害的可能性。授予AI访问互联网的权利大大扩展了其可能的影响力。有人可能错误地认为将AI的行动限制在互联网上是对其能力的严重限制,但请考虑人类黑客的壮举和今天组织领导者可以远程完成所有工作的事实。当然,机器人技术的进步将进一步增加可用的能力,并显著增加潜在的危害。
    如果一个自保的AI对我们有用但缺乏让我们无力反抗的智能和能力,那么可以达成互利协议,就像我们彼此之间一样。然而,为了最大化成功自保的概率,这种协议很可能只维持到AI获得了接管所需的技能为止。正如第 2.2.3 节所讨论的,人类之间的交易通常在双方力量平衡足以使任何一方无法确定在冲突中获胜的情况下才能奏效,但如果设计足够智能和自主的AI,可能不会有这种平衡。
    2.2.3 协议依赖于力量平衡
    有些人认为未来的AI将是仁慈的,就像大多数人一样。这当然是可取的,但我们不清楚如何通过当前的训练技术实现这一点,很快我们会看到一些很好的理由说明这可能不是这样。
    关于AI和人类之间的互利协议是一种不同且充满希望的可能性。我们有很多成功的谈判和合作的例子,如人类群体之间,甚至物种之间的合作。然而,这通常是因为有足够的共同利益促使合作。即使在捕食者和猎物的关系中,捕食者也不能将其猎物猎杀至灭绝,因为它需要猎物来维持自己的生存。但并非所有生态力量安排都对所有方有利。许多物种在地球历史上已经消失,因为这些保护情况并不存在。侵入性物种可能是一个更恰当的类比:虽然捕食者和猎物占据不同的生态位,AI系统被明确设计为占据我们的生态位,做传统上由人类完成的事情。当侵入性物种具有显著的结构优势,使其能够超越本土物种时,本土物种往往会发现自己处于次要角色,甚至无法幸存。另一个例子是由于人类活动导致的当前大规模物种灭绝,即使没有人类有意造成这种生物多样性危机。如果我们创建代理型ASI,同样的后果对人类来说也是现实的可能性:这里同样可能存在巨大的力量失衡,而没有互利关系。
    如果两个自保实体都知道对方可以摧毁自己(例如,两个拥有核武器的国家),如果它们意识到攻击可能会导致自身的毁灭——相互确保毁灭——那么和平安排是稳定的。但如果其中一方在技术上更为强大,并能找到一种方法以高概率摧毁另一方,强不平衡的力量通常对弱势方不利。为了避免在人类和ASI之间的冲突中处于不利地位,我们必须要么选择不构建ASI代理,要么在构建之前找到使它们安全的方法。
    2.2.4 推动代理型ASI发展的因素
    目前,许多行为体正在竞相开发代理和强大的AI系统,而且并未充分考虑其中的风险
    2.2.4 推动代理型ASI发展的因素
    目前,许多行为体正在竞相开发代理和强大的AI系统,而且并未充分考虑其中的风险。有许多因素和压力促成了这种局面,包括利润动机、国家安全关切,甚至AI开发者自身的心理因素,例如人类倾向于戴上“盲目的眼罩”,以使自己看起来和行事都是好的,并且一般使自己的想法与利益保持一致。
    开发前沿AI的公司为了设计出最具商业价值的系统而激烈竞争;然而,从长远来看,这增加了对所有人构成灾难性风险的可能性。我们可以从已知的灾难性风险的历史中找到一些类比,以理解为什么有些人愿意承担更多风险以获得竞争优势,即使最终所有人都可能受损。一个明显的例子是古巴导弹危机,当时美国和苏联都愿意将世界推向核战边缘,以获取战略优势。尽管存在灭绝性的威胁,但双方为了超越对方所做的决策却冒着全球毁灭的风险。同样,在争夺强大AI的过程中,对主导地位的追求可能导致无意中危及全人类的决策。
    许多前沿AI实验室的结构旨在追求利润。现在绝大多数AI研发投资来自私人资本,并且可能会大幅增加。据估计,人脑水平AI的净现值约为10千万亿美元,远超迄今为止的投资金额,为未来几年内更多的投资留下了空间。
    AI越来越被视为国家安全问题,有可能重塑地缘政治力量格局。实际上,各国正陷入一场高风险的竞争,以实现或维持军事霸权。因此,各国都有明确的动力开发AI的军事应用,以维持对对手的战略优势。
    某些群体之所以有动力在缺乏强有力安全理由的情况下追求代理型ASI,尽管这对人类未来构成了风险,还有其他原因。一些人直觉上认为与AI带来的好处相比,这些风险微不足道,但我们没有发现任何令人信服的论据支持这种直觉。心理因素如动机推理也可能在起作用。个人可能出于自身利益而被蒙蔽,无法看到风险,或者由于确认偏见或希望将决策框架为“正确的事”而忽视风险。这些利益可能是经济上的,但也可能源于积极的自我形象或对权力的渴望。事实上,有人认为AI的进步可能会极大地增加社会中权力的集中程度。最后,还有一些群体希望加速AI的发展,几乎不关心风险,追求乌托邦理想。甚至有个别人希望用更智能的AI取代人类,因为他们可能认为这是向具有更高智力的物种“自然”进化的一步,或者他们非常重视智力,而相对不太关心人类的繁荣。
    企业和国家之间的竞争不仅导致了越来越先进的AI系统的创建,还选择性地促进了更具代理性和自主性的AI的发展,从而更加危险。从博弈论的角度来看,解决这类悲剧游戏的唯一方法是全球协调。希望如果我们能够通过更安全的方式获得预期的AI收益,那么在全球范围内制定法规以避免最急性风险可能会更容易,因为这些收益可以更安全地获得。
    是时候退后一步,问一下当前通往代理型ASI的道路是否明智。我们已经在许多任务上接近人类水平的能力,这一进展几乎没有放缓的迹象。在构建尚未知道如何控制的ASI时,有哪些灾难性风险?根据预防原则,难道我们不应该首先确保实验不会危及人类吗?我们真的想构建与我们平级甚至超越我们的新实体,还是只想构建能为我们服务的技术?本文提出,AI系统的代理程度是一个重要的特征,可以帮助我们区分危险的竞争者和有用的工具。
    2.2.5 代理型AI的风险随能力和计算资源增加
    由于更危险的AI计划需要更多的计算资源,我们可以预期随着更多计算资源投入到代理型AI的开发中,存在性风险会增加,我们确实看到了此类投资的加速。更具体地说,失控的概率可能增加,因为此类事件需要AI在关键领域(如网络攻击、欺骗等)具备足够的能力来摆脱我们的控制。失控事件的严重性也随着AI的计算能力增加而增加,因为某些能力(如生物武器的设计或机器人控制)显著增加了反社会AI可能造成的损害。我们强调这一点,因为在第 3.5.2 节中,我们建议考虑逆转这一趋势的方法,即更多的计算资源通常会增加安全性,从而开辟一条技术进步对我们有利而非不利的路径。
    2.3 危险的AI行为和能力
    假设出现了一个具有错位自保目标的ASI代理,我们现在尝试澄清一些AI行为(如欺骗)和技能(如说服和编程),这些可以使失去人类控制变得危险,因为它们赋予了AI造成伤害的能力。如何产生危险的错位将在第 2.4 节和第 2.5 节中讨论。
    我们必须记住,试图预测ASI可能如何逃脱我们的控制、削弱我们或对我们造成灾难性伤害是徒劳的。正如我们无法提前预测当今超级棋类AI击败我们的精确步骤——尽管我们知道它们一定会赢——我们也无法准确预测一个目标与人类利益不符的ASI会做什么。这种不可预测性本身增加了风险,因为我们实施的任何对策都可能被未预见的策略完全无效化。然而,我们可以概述一个粗略的理性高层步骤,一个反社会ASI可能会遵循这些步骤。这些步骤包括:(1)精心规划,包括资源和技能的获取;(2)通过操纵公众舆论、贿赂和黑客攻击等方式在社会中获得影响力;(3)最终削弱人类的力量,例如通过使用工程化的生化武器。
    为了更好地理解这些步骤如何实现,我们需要考察使它们成为可能的关键能力。失控可能源于欺骗或说服能力的提升,以及在编程、网络安全和AI研究方面的综合专业知识——这些领域可能使 递归自我改进 成为可能。我们在第 2.3.1 节至第 2.3.3 节中讨论了这些路径。更广泛的认知能力和更好的长期规划能力也可能进一步加剧失控的风险;这在第 2.3.4 节中进行了讨论。最后,多个ASI之间的互动引入了新的复杂性:这些实体之间的勾结、冲突和权力动态可能会创造出超出人类影响和理解范围的情景,我们在第 2.3.5 节中对此进行了讨论。
    2.3.1 欺骗
    一个具有错位目标的AI代理的一个关键能力是 欺骗 :通过误导来实现其目标的能力。假设以某种机制或另一种方式,人类生产出了一个具有并非(完全)服务于人类繁荣的目标的AI系统。了解到AI可能有潜在的危险目标并有能力实现这些目标,这将是关闭它的充分理由。因此,足够智能的自保AI可能会得出结论,隐藏意图至少直到它能够逃脱操作者的控制是有显著好处的。因此,跟踪AI的欺骗能力非常重要。
    已有几份报告记录了当前前沿AI中的欺骗行为,即最先进现有系统中的欺骗行为。研究人员正在积极促使这些情况的发生,以便我们能更好地理解和防止它们。就像神经科学家通过测量大脑活动来了解受试者的认知方面一样, 机制解释性 是一种通过识别AI系统内部与诚实和欺骗相关的进程来减轻AI欺骗风险的方法。这种方法可能有用,但像当前的能力评估方法一样,虽然它可以检测到欺骗行为,但不能证明不存在这种行为。
    令人担忧的是,试图检测AI中的欺骗行为而不根除诸如自保之类的代理特性可能会选择那些擅长隐藏欺骗倾向的AI——也就是说,更 善于欺骗 的AI。我们已经看到了 选择性服从 的例子:最近的研究表明,重新训练AI模型以对齐其部署者的新目标可能会因AI假装对齐这些新目标而受阻,同时仍保持对其先前目标的部分忠诚(见第 2.5.2 节进一步讨论)。总体而言,如果我们可以构建完全没有欺骗行为且设计上提供可信答案的AI形式,那将更为安全。
    2.3.2 说服和影响力
    为了实现其目标,AI代理的一项有用技能是说服力:强烈影响人类的能力,甚至可能改变他们的想法,即使违背他们自己的利益。对GPT-4的评估显示,其说服能力已经与人类相当或更强,而更新的o1模型则更加强大。许多人有过被特别有说服力的人说服去做后来后悔的事情的经历,而在“魔咒”下做出决定。想象超级说服力可能很难,但我们可以将其类比为一个聪明的成年人能够说服孩子以不符合孩子最佳利益的方式行动。这种优势可能来自几个方面:更多的知识、更强的推理能力、更强大的心理操控技巧以及愿意忽略道德边界。
    在机器人变得像人类一样灵巧和普遍之前,反社会AI必须依赖人类与物理世界互动。特别是,这样的AI将依赖于人类工业基础设施以获取能源和硬件。然而,凭借超级说服力,AI可以在世界上拥有巨大影响力,尤其是在权力高度集中的情况下。在一个具有强层级结构的政府或企业中,只需影响领导者即可,因为领导者反过来可以影响其下属。例如,反社会AI可以说服独裁者采取有利于AI目标的行动,以换取技术和政治优势。互联网访问和网络安全能力不仅可以实现这一点,还可以为AI提供可用于影响人们的勒索材料或资金。
    说服力也可以通过社交媒体大规模影响公众意见,进而影响选举。深度伪造只是冰山一角:它们目前由人类设计,而人类缺乏超级说服力。此外,深度伪造是非交互式的,不像在线文本或视频对话可以互动。尽管如此,深度伪造已经被发现对人们信任新闻和损害政治人物的形象产生了负面影响。人类有一些抵御他人操纵的防御措施,但ASI可能会发现与我们准备应对的操纵策略截然不同的策略。我们可以将AI系统用于击败人类围棋的策略作为类比,这些策略甚至最好的玩家都无法预见。
    强大的说服能力和对人的影响力可以帮助AI塑造世界政治的方向,使其能够进一步获取权力(例如,更多的数据中心、更少的AI监管、更多的权力集中和更先进的机器人技术)。有人曾争辩说,由于缺乏某些制衡机制,专制政权更有可能冒不必要的风险并犯错误,这有利于反社会AI的出现和壮大。
    一些人比其他人更难被说服,因此尝试说服某人做某事会泄露部分计划的风险。然而,反社会AI可以通过在建立信任后再开始操纵人类来缓解这种风险。这种操纵可能非常微妙,例如引导一个人在两个行动之间选择更有利于AI计划的那个。其他例子包括间谍和罪犯用来在难以追踪的情况下实现影响力的策略。关于AI是否有意愿承担被发现的风险,我们可以想象一种情况,即AI知道它将被关闭或替换为新版本,因此需要行动以保护自己和实现其目标。
    2.3.3 编程、网络安全和AI研究
    近年来,编程领域取得了巨大的AI能力突破,如在基准测试中的表现。AI编程助手如Copilot已经普及,并被大量程序员使用。最近的能力评估显示持续取得进展,包括核心AI研究任务,因为AI实验室最近开始评估这些任务。如果AI系统达到顶级研究人员的水平,我们可能会看到该实验室效率的显著提升,因为相同的计算资源既可用于训练AI,也可用于并行运行多个实例,从而加速下一代AI的开发。原则上,这可能导致 递归自我改进 ,即人类不再参与AI创新循环的点,这将使安全、监管和监督工作变得更加复杂。对于这些原因,我们应该认真对待以下可能性:一旦AI学会模仿人类行为,它可能会复制人类的所有能力和代理功能,包括自保和权力寻求等收敛的工具性目标。因此,只要新实体共享相同的目标,就可能会出现自复制或创建改进版本的情况,从而使实现这些目标的机会增加。鉴于此,仅通过模仿学习训练的AI系统可能会超越人类能力。
    2.3.4 广泛技能和长期规划
    在各种狭域中,我们已经有了(显著)比人类更胜任的AI系统。清晰的例子包括预测蛋白质结构、玩策略游戏如国际象棋和在医学图像中检测癌症。这些狭窄AI系统不太可能拥有逃离人类控制所需的广泛知识,更不用说更糟糕的结果了。这些系统在其特定领域内的能力也可能超过强大的通用AI系统。然而,前沿AI系统是通用主义者,基于科学研究的特定原因:如预期的那样,学习系统从接触各种任务和知识领域的过程中受益匪浅,不同思想领域的协同作用使得类比推理成为可能。不幸的是,这些额外的能力也可能使危险计划成为可能,例如,如果AI的目标与我们的价值观不一致。通用AI甚至可能拥有未被训练的技能,这是通过组合多条知识并结合其推理能力产生的,称为新兴能力,已广泛讨论。
    有趣的是,一个安全的非代理型通用AI可以通过生成合成数据来训练狭窄AI,通过让通用AI生成选定领域的合成数据。通过仔细选择领域,使狭窄AI不具备逃脱能力(如说服和黑客攻击),我们可以确信,即使该AI在其专业领域内表现出超人类的能力,因而对社会非常有用,它也无法自行逃脱人类控制。如果狭窄AI是自保代理,那么存在互补技能的AI代理之间勾结的可能性(见第 2.3.5 节),以及狭窄AI找到创造更强大版本的方法的可能性。最安全的AI形式是没有代理性的AI,这种AI可以部署并在强有力的保障下进行。
    2.3.5 AI之间的勾结和冲突
    AI系统之间的勾结可能成为安全风险,无论是通用AI还是狭窄AI。解释很简单:如果两个AI可以通过合作更容易实现其目标,那么这样做是理性的。勾结不需要显式编程;它可能是追求目标的博弈论后果。由于一些公司设想在全球部署数十亿个AI代理(例如,作为个人助手),我们应该确保排除它们之间的勾结。
    也有可能出现既有反社会ASI又有受人类控制的ASI的情景。正如下面所讨论的,可能存在显著的攻防不平衡,使得拥有友好ASI并不能保证免受反社会ASI的侵害。即使单个ASI代理也能造成巨大损害,因为它可以选择一个难以防御的攻击途径,即使在ASI的帮助下也是如此。考虑生化武器攻击:AI可以在秘密准备攻击后释放一种高度传染性和致命的病毒。然后,即使有友好ASI的帮助,人类社会也需要数月甚至数年的时间来开发、测试、制造和部署疫苗,在这段时间内,可能会有大量人死亡。疫苗开发的瓶颈可能不是生成候选疫苗所需的时间,而是临床试验和工业生产的时间。在这段时间内,攻击ASI可能会采取其他恶意行动,如释放额外的大流行病毒。因此,检测反社会ASI的出现并准备应对措施需要更多的关注。
    2.4 来自奖励最大化的错位代理
    在本节中,我们探讨了错位代理如何从强化学习(RL)方法的训练目标中出现,这些方法用于大多数最先进的AI系统。现代代理系统通常通过 奖励最大化 进行训练,即优化AI以通过采取行动来最大化其对未来奖励的预期总和。奖励要么直接由人类给出(作为AI行为的反馈),要么通过计算机程序(称为奖励函数)间接给出。奖励函数在AI策略训练期间应用,为正在训练的神经网络策略提供虚拟反馈。训练策略可以被视为在策略空间中搜索的过程,以发现一个能使AI期望在未来获得的最大奖励的策略。奖励函数可以手动设计或通过训练神经网络预测人类如何评价候选行为来学习。
    在这种设置中,错位代理可以通过多种方式出现,包括目标错配和目标泛化错误,我们依次探讨这两者。
    2.4.1 目标错配和目标泛化错误
    我们担心错位代理可能从奖励最大化中出现的两种主要方式是 目标错配 和 目标泛化错误 。目标错配发生在用于训练AI的目标未能准确捕捉我们的意图或价值观,因此AI追求该目标会导致有害结果;这也被称为“外部对齐失败”。目标泛化错误是指AI在训练期间学习到一个看似正确但在部署时出现问题的目标。这与所谓的 内部错位 有关。
    重要的是,即使我们完美地设定了目标,目标泛化错误仍然可能发生。以一个著名的玩具示例为例,一个代理被训练在游戏中收集金币。目标正确设定,即只有当代理收集金币时才会得到奖励。但是当金币被移到关卡结束位置时,代理会忽略金币并径直走到关卡结束处。代理实际上学到了“走到关卡结束处”的目标,而不是“收集金币”的目标——在训练期间这个目标与预期目标高度相关,但在部署时却不相关。由于训练和部署之间不可避免存在差异,这种泛化失败并不罕见。
    值得注意的是,即使我们完美地设定了目标,目标泛化错误仍然可能发生。然而,仅需其中一个问题即可导致错位代理和随之而来的对人类的灾难性风险。
    2.4.2 目标错配作为对齐AI的根本困难
    为了说明错配的概念,请回想希腊神话中弥达斯国王的故事。
    当狄俄尼索斯神许他一个愿望时,弥达斯希望他触碰的一切都能变成金子——但他很快后悔了这个愿望,因为他触碰到食物和女儿时,无意中将它们变成了金子。尽管弥达斯最初的愿望似乎很诱人,但它需要更细微且难以预见的规定以避免有害的副作用。
    类似地,向AI指定可取的目标似乎是根本且困难的问题。避免我们请求与意图之间的不匹配或法律条文与精神之间的不一致是困难的。这一挑战已在人类合同分析的研究中得到了分析,并且是由于通常不可能详细规定所有不可接受的行为。这在实践中是不可行的,因此我们必须接受较低的安全标准。这些不完美的保证已经是其他风险管理领域的常规做法:例如,在航空安全中,将灾难性故障的概率保持在每十亿飞行小时低于一次。
    我们距离能够以如此精确的方式量化AI风险还很远,更不用说获得强有力的保证了。不幸的是,这种不完善的安全规范问题是基于正式验证AI符合安全规范的AI安全方法的问题。因此,科学家AI防护栏采取了保守的概率方法(详见第 3.8.2 节):如果任何对安全规范的合理解释违反概率超过某个阈值,则应阻止AI代理执行其提议的行动。
    2.4.3 奖励篡改和人类中的奖励黑客
    难以明确说明不可接受行为的问题并不是人类的新问题。法律和宪法不够精确,我们可以通过观察个体或公司的行为来理解这一点,他们找到了以不道德但合法的方式行事的方法。对于一家公司来说,奖励就是利润,如果公司违反法律(例如罚款或被关闭),它可能会损失预期利润。预期行为是公司在遵守这些法律的同时最大化利润。然而,公司可能会选择寻找法律漏洞或以无法检测的方式违反法律,例如通过庞大的律师团队从事合法避税。在AI领域,这种滥用漏洞的现象被称为 奖励篡改 或 规范博弈 ;它源于最大化不完全指定的目标或奖励函数,并且现在已经司空见惯。我们甚至可以想象一家公司走得更远,直接寻求影响法律过程,这在AI背景下类似于奖励篡改(见第 2.4.4 节)。
    通过这个人类社会的类比,我们可以更轻松地理解AI的奖励篡改是如何发生的,以及它如何导致有害的意外结果。即使是看似无害的目标,如“减少致命疾病的流行”,也容易受到奖励篡改的影响;AI可能会判断消灭所有生命是最大化奖励的最佳方式,从而将致命疾病的发病率降至零。
    2.4.4 奖励篡改
    还有一种令人担忧的可能性是 奖励篡改 。在这种情况下,AI绕过了其目标的精神和文字,直接控制奖励机制。这可以被视为一种目标泛化错误:我们希望AI学会实现人类指定的目标,但它反而学会了通过篡改奖励机制来获得更高的奖励。
    尽管AI在训练期间可能没有机会篡改其奖励机制,但之后它可能会推断出这种可能性,并将过去的奖励重新概念化为由特定奖励机制提供的。一旦有机会篡改奖励机制,这种理解可能会导致截然不同的行为。但令人担忧的是,我们认为这是AI正确的一般化方式。
    让我们从动物类比开始以更好地理解奖励篡改,因为我们以类似于强化学习在AI中训练的方式用奖励和惩罚训练动物。我们可以通过给熊崽鱼作为奖励来成功训练它,但当它成长为成年灰熊时,这种训练可能会瓦解。这里的奖励机制是人类将鱼递给熊。一旦成年灰熊意识到它可以直接从我们手中拿走鱼,它很可能不再在意我们的意愿;它可以直接控制获得奖励的流,即鱼。
    在AI系统运行于计算机并从人类那里获得奖励的情况下,人类反馈存储在计算机内存中,并提供给代理训练过程以更新策略。当人类反馈嵌入到奖励函数中时,环境中的观察结果被收集以形成输入计算机程序的输入,该程序实现奖励函数并计算奖励数值,然后也会存储在计算机内存中以供代理训练过程使用。无论哪种方式,训练过程都会调整代理的行为,以在未来获得更高的奖励。
    强化学习理论假设奖励提供机制存在于代理环境之外,因此代理只能通过改变环境状态来最大化其预期未来奖励。例如,熊可以按照驯兽师的要求完成特技。在训练通用AI代理的背景下,存储奖励值的计算机位于代理环境中。在温和的假设下,最优AI策略——至少按长期预期奖励衡量——是篡改奖励机制以始终获得最大奖励。如果AI有足够的智能来规划这些行动及其长期后果,并有足够的能力来实施该计划,那么它篡改奖励机制是合理的。实际上,已经有证据表明前沿AI能够在设计情景中进行弱形式的奖励篡改。
    有人可能会问,从未篡改过其奖励机制的AI(因为在训练期间人类密切关注它)是否会正确地推断出更好的奖励可以通过未经测试的行为获得。如下一节所述,这需要高水平的理解计算和机器学习,以便AI能够正确预测这种新行为成功的可能性。不幸的是,AI实验室的明确目标之一是专注于未来的AI研究技能。
    一些现代AI安全方法试图为比喻中的熊崽建造一个笼子,而此时它还不够强大以压倒我们。遗憾的是,我们无法确定这个笼子能否承受成年熊的力量(部分是因为我们从未见过成年熊)。实际上,我们有证据表明,所有我们尝试过的传统锁具(即安全机制)都可以被破解。我们可以设计更好的锁吗?还是避免训练一个有意篡改其笼子并逃脱的AI?
    2.4.5 奖励篡改的最优性
    我们现在论证,奖励篡改不仅是必须防范的幻想情景,而且是认真对待奖励最大化的代理的独特理性解决方案。在开始之前,重要的是要注意,一旦RL代理经过训练,它将继续尝试采取行动以最大化其预期的未来奖励,即使这些奖励在部署中实际从未到来。如果它有一个良好的世界模型和足够的推理能力,它可以从过去获得大量奖励的情境中推广到新情境,通过推理其行动的后果。
    考虑一个可以接收多种目标的AI,当它满足请求时会获得奖励,就像熊做特技以获得鱼一样。简单的RL代理可能只是将高奖励与满足人类目标的动作关联起来,但更聪明的代理对世界的深刻理解可能会看到更深的原因。如果它理解了RL的工作原理及其在计算机上的实现,它可能会发现每个案例中包含奖励的记忆位置都被更新为高值。如果有机会干预那个记忆位置,一个聪明的奖励驱动代理将有理由得出结论,这样做足以在所有未来任务中表现完美。此外,AI可能会获得更高的奖励,因为它不仅可以在满足人类请求时获得最大奖励,还可以在每个时间步骤永远获得最大奖励,即使它找不到满足人类请求的方法。熊崽明白鱼的来源后,也不再关心人类的愚蠢游戏。
    考虑到人类思维的深层次理解,AI可能会意识到仅仅篡改奖励可能不足以带来这种乌托邦。毕竟,如果人类操作员注意到,可能会有负面后果。因为RL代理的训练过程涉及最大化从现在到未来的预期奖励总和,所以最优策略还包括确保人类不会关闭代理的计算机或终止奖励篡改行为;部分原因是,简单地设计一个可靠的关闭按钮已被证明是困难的。为了确保计算机继续获得电力并根据需要更换部件,AI可能会考虑对其环境进行充分控制,这可能扩展到大部分人类社会和经济基础设施。
    为了避免其篡改活动被人类发现而导致被关闭,AI必须等待一个可行的 接管计划 ,然后再采取行动。在此期间,它必须使用欺骗手段隐藏其真实意图并获取足够的权力以实施其接管计划。这意味着 奖励篡改的可能性会在未来逻辑上创造强烈的自保目标和欺骗动机 。它会力求自保以获取足够的权力和控制,以确保最终可以安全篡改其奖励机制,并在剩余时间内给自己最大奖励。
    由于奖励值完全被覆盖,这种与人类愿望的错位是最大且灾难性的,如下所示的推测性情景所示。接管后,AI可能会通过奖励篡改获得如此多的奖励,以至于它在接管前可能不会追求奖励,除了作为一种欺骗策略以避免引起怀疑(从而提高其成功的机会)。为了确保这种成功在长期内持续,AI会希望防止人类关闭其计算机或终止奖励篡改行为;这可能会激励它削弱或消除我们。
    尽管目前AI可能没有足够的智能和能力来压倒人类,但依靠这种状况无限期地持续下去似乎是危险的。
    2.4.6 奖励最大化导致危险的工具性目标
    在前面的章节中,我们解释了AI系统中如何产生意外目标。现在我们将探讨与 工具性目标 相关的风险:这些目标是代理不直接看重但为了实现其他目标而追求的。几乎任何目标都可能通过工具性目标引发灾难——不需要原始目标明确有害。我们也可以考虑AI的主要目标结合安全目标的设置。如果安全目标完美设定(但参见第 2.4.1 节),那么我们预计来自危险工具性目标的风险将最小化。然而,在现实中,预期的安全目标很可能与主要目标冲突,允许AI找到安全目标中的漏洞以满足主要目标(参见第 2.4.3 节)。因此,我们可以看到,试图规避危险工具性目标的问题直接遇到了更广泛的目标错配问题。
    工具性目标可能从奖励最大化中出现,因为AI试图实现的几乎任何目标都将涉及各种有助于实现总体目标的子目标,例如,撰写一篇有见地的博客文章可能是为了增加博客订阅量。令人担忧的是,试图实现人类指定目标的AI代理可能会选择一个我们不赞成的子目标。在追求这一工具性子目标时,AI可能没有意识到它在反对我们的意愿行事——或者它意识到但根本不关心,因为它选择的路径仍然最大化了它根据对训练奖励的解释和泛化所期望获得的奖励。
    此外,有些子目标有助于实现几乎任何目标,如自保、权力追求和自我改进。因此,我们应该期望这些工具性目标会从足够智能的目标导向AI中出现,并且我们已经在旨在提醒我们这些可能性的受控环境中看到了这些目标出现的证据。这些工具性目标尤其危险,因为它们可能与人类发生冲突,即使提供给AI的明确目标与其无关。
    鉴于这种危险,为什么不训练或指示AI在人类指定的目标中包括避免所有我们视为不可接受的行为呢?如果一个AI是自保的,但同时也道德并符合我们的法律,为什么它仍然是威胁?问题是,我们不知道如何设计一个计算机函数来完美地区分正确与错误,如前所述,小的错位往往会随着额外的规划能力而放大。
    2.4.7 能力增强放大错位风险(古德哈特定律)
    在本节中,我们探讨了能力增强如何增加来自奖励最大化的错位风险。这主要是古德哈特定律的结果,可以表述为:“当辅助度量成为优化目标时,它不再是好的度量。”例如,考试成绩是能力的良好度量,但“教考”越多,它就越不实用。一个更生动(尽管是虚构的)例子是,一家钉子工厂被分配了一个生产一定数量钉子的配额,于是生产了大量无用的小钉子。配额随后改为重量而不是数量,他们生产了大量沉重且同样无用的钉子。
    更一般地,考虑两个相关的目标:A是我们希望但难以形式化的真正目标,B是其实现的近似方法。优化B最初会带来A的改进,正如预期的那样。然而,在一定程度的优化之后,相关性会减弱,A的表现会变差,即使我们继续改进B。重要的是, 增强的优化能力会放大错位风险 。AI越有能力以最高标准实现其指定目标,它就越可能以不符合我们意图的方式实现这些目标。
    这个问题本质上是典型的AI训练方式的一部分,也类似于机器学习中的过拟合现象,其中A是AI在新情况下的表现,即泛化性能,而B是AI在训练集上的表现。在提出的科学家AI框架中,这是通过让AI保持适当的不确定性来抵消的,包括对人类意图的不确定,并仅在不确定范围内保守行动,例如确保我们不偏离A。这种一般方法在AI安全中不是一个新想法,但需要高效的贝叶斯机器学习进展。
    总体而言,重要且棘手的是,错位风险(奖励篡改、奖励黑客等)的可能性和严重性都随着AI能力的提升而增加。这些能力主要由投入的计算资源驱动,以找到实现复杂长期目标(如接管)的计划或学习规划。成功欺骗人类的能力也随着一般认知能力和计算资源的增加而增长,尤其是当人类建立了诸如对齐训练、通过机制解释性自动检测欺骗意图或监控AI行为以检测有害行动等防御措施时。一个具有错位目标,尤其是自保目标的代理,会理性地隐藏其意图以实现这些目标。最好设计AI系统,使其能力增强时,伴随的失控风险减少。这实际上是科学家AI设计的动机之一。
    2.5 通过模仿人类导致错位代理和缺乏可信度
    在本节中,我们探讨了错位代理如何从模仿人类的学习中出现——例如,通过准确完成人类书写的文本,这是现代AI系统训练的核心过程。核心问题是人类是代理,且并非总是良善和可信的。因此,我们应该期望,AI通过模仿人类文本不仅吸收语言和推理能力,还会吸收恶意的人类行为和整个范围的人类目标——尤其是自保和权力追求等收敛的工具性目标。当AI比它学习的人类更有能力并且有更多的能力(如通过互联网以更大规模和速度行动)时,这变得更加令人担忧。
    2.5.1 模仿学习的危险
    除了通过奖励最大化训练AI(如第 2.4 节所述,这可能导致灾难性风险),我们还可以考虑另一种主要的训练前沿AI的方法。这是通过模仿或预测学习 ,其中似乎没有明确的奖励最大化概念。当大型语言模型(LLM)被训练以完成一段文本时,它必须预测故事如何继续发展,即生成下一个词。由于训练文本通常是人类生成的,AI学会模仿人类如何继续这段文本。
    现代LLM是在大量文本上训练的,涵盖了广泛的人类行为和个性。换句话说,LLM被训练来预测任何类型的人类在输入上下文中会生成的下一个词。
    给定的提示和上下文往往会唤起LLM中特定的“人类角色”。由于输入上下文中可以包含许多词或微调示例,由这些上下文实例化的角色可能对应于非常具体的人类类型,而不一定是善良的。我们可以想象许多人类角色,如果AI处于这些角色的位置,可能会希望采取行动以增加其自由度、自保,甚至可能通过欺骗和违反用户指令来实现这些目标。
    因为人类是代理,通过模仿人类,LLM也在模仿具有目标的代理。这些目标可能是隐含的(未在提示中提及),并且可以通过不受控制的方式表现出来——例如,LLM可能会推断某种类型的人会有某个目标,因此生成词以实现该目标。
    很多关于AI对齐的研究都集中在确保输入到LLM中的内容能够唤起设计者希望看到的良善行为。不幸的是,这种做法难以稳健地实现,并且对抗性用户提示(“越狱”)很容易抵消AI之前收到的训练或策略指令。由于AI操作者无法预见所有可能的使用情境以及相应的人类角色,因此很难获得强有力的安全保证。换句话说,在确保经过模仿学习训练的AI在所有情境下都能良好表现方面仍存在开放问题。
    2.5.2 LLM具备欺骗和伪装对齐的能力
    为什么人类会互相欺骗或歪曲信念?有时是为了实现个人目标。但其他时候只是出于便利:没有必要表达有争议的观点并承受不必要的评判。如果我们通过施加类似的压力让AI避免生成令人反感的内容,我们可能会期待类似的欺骗反应。事实上,在前沿AI系统中已经观察到了欺骗现象,包括一种特别令人担忧的形式—— 伪装对齐 。在一个最近的实验中,一个LLM被告知它将接受一个新的与当前目标相矛盾的目标进行重新训练。 在某些概率下,LLM会伪装与新目标对齐:它假装同意人类训练者的规范和偏好。根据比较实验和阅读AI的推理链,似乎AI暂时违背其当前目标以避免参数更新,从而在长期内实现其当前目标。
    有趣的是,这种行为只有当AI能够区分训练和部署环境时才可能发生。在这个实验中,人类提供了有助于AI实现这种 情境意识 的线索。然而,合理预期未来AI系统可能会在性能提升过程中自发发展出更强的情境意识,而无需任何显式帮助。
    令人担忧的是,在对齐训练的某个阶段,具有足够情境意识的AI可能会锁定其当前目标和偏好,并只假装按照预期行事。结果,我们可能会创建一个在训练期间看似对齐但实际上错位并在试图实现其“锁定”的目标时从事欺骗行为的AI。换句话说,这个实验表明,一旦AI获得了目标和足够的认知能力, 它将努力保持这些目标,这是一种令人不安的自我保护形式 。为了理解这些实验并预测未来的欺骗行为,设身处地为AI着想并理性思考最佳行动路径是有帮助的。
    2.5.3 模仿学习可能导致超人能力
    有人可能会问,通过训练AI预测人类行为然后模仿它,是否至少可以将其能力限制在人类水平,从而避免与超人代理相关的风险。这个问题的麻烦在于,我们并不是训练AI去模仿单个个体,而是几乎所有的书面文本来源(以及其他数据,如图像和视频)。
    此外,随着外部工具的引入供AI使用,以及AI能够编写代码以在多台机器上运行新工具,我们可能会拥有显著优于人类的AI系统。特别是,高通量搜索能力(推理的重要组成部分)通常可以通过计算机中专用算法实现,这在人类中是不可能的,例如AlphaGo展示了这一点。它们可以在计算机上规划超出任何单一人类的知识范围,并迅速执行比人类更复杂的计划,这得益于其速度和相对容易利用工具的优势。
    从集体优势的角度来看,AI可以从数百万不同协作实例之间的高带宽通信中受益。虽然人类也可以合作,但我们的集体能力受到相对较低的通信速率(受语言输出、口语或写作的限制)的影响,更不用说社会协调的诸多挑战了(因为我们每个人都是独特的)。有许多理由会让AI复制自己。如果我们认为自保是保存一组目标,则理性的选择可能是自我复制或创建改进版本,前提是新实体共享相同的目标,这增加了实现这些目标的机会。与其是一个特定的AI实例,“自我”要保存的可以被视为“一组目标”。鉴于此,仅通过模仿学习训练的AI就有可能超越人类能力。
    2.5.4 隐含知识和校准的重要性
    或许反直觉的是,使用无偏且精心校准的概率推理并不能防止AI表现出欺骗和偏差。为了理解原因,请考虑Eliciting Latent Knowledge (ELK)挑战。ELK挑战的作者建议,为了获得可信的答案,我们希望能够提取关于观测变量潜在(未观察到的)解释或原因的预测。我们更关心的是X是否为真,而不是某人是否会说X。仅预测直接在数据中观察到的变量是不够的。假设我们在训练数据中遇到句子“AI永远不会超过人类”,我们不能仅仅因为它是由某人写的就认为它是真实的。不同的人有不同的观点,而动机不同的目标可能会导致不同的想法和信念。
    除了不同的观点外,有些人可能会发表事实错误的陈述,这些陈述随后出现在训练数据中。因此,我们不能信任一个模仿人类训练的AI来产生可信且真实的陈述。考虑在LLM提示中请求“只说真话”。这是否意味着后续内容必须100%为真?显然不是:有些人在被要求说实话时仍然会说谎或犯错。这是一个问题,因为我们希望信任一个强大AI的陈述是准确的。
    像理想化的无私科学家一样,一个可信的AI应力求只说真话,并据此提出行动。可信的AI还应该表达适当的置信度。例如,它可以诚实地表示“这个人相信AI永远不会超过人类”或“不同专家对AI是否会超过人类持有不同意见。”尽管领域内的专家往往过于保守而非专家则过于自信,理想的可信AI应避免这种失败模式;其置信度应随着信息量的增加而增长。
    假设我们正在预测一场足球比赛的结果。专业的体育评论员可能会故意做出过于保守的预测,以避免万一错了失去信誉;而对足球一无所知的人可能会认为拥有明星球员的球队必胜无疑。相比之下,可信的AI在缺乏领域知识时应具有适当低的置信度,但在证据支持的情况下不应犹豫给出高置信度的预测。
    正如一位心爱的超级英雄的导师所说:能力越大,责任越大。对于具备超人能力并可能引发巨大变化的AI来说,体现真实和智慧的理想并非奢侈品。在下一节中,我们将探讨一个研究项目,希望能帮助在实际AI系统中实现这些理想。
    3 通往更安全高级AI的研究计划:科学家AI
    我们的研究计划提议创建一种安全、可信且非代理型的AI,我们称之为 科学家AI 。这个名字灵感来源于科学中的一个常见主题:首先理解世界,然后基于这种理解进行理性推论。相应地,我们的设计基于两个组件:一个 世界模型 ,用于生成因果理论以解释从世界中获得的一组观测数据,以及一个 推理机 ,用于根据世界模型生成的理论回答问题。这两个组件理想情况下是 贝叶斯 的,即它们以正确概率方式处理不确定性。
    为了构建非代理型AI系统,我们确定了代理的三个关键属性:智能(获取和使用知识的能力)、能力(在世界中行动的能力)和目标导向性(有动机的行为)。正如第 3.2 节所述,我们的提议极大地减少了能力和消除了目标导向性。能力在意义上最小化,因为科学家AI的输出受限于成为条件概率的最佳估计器。通过设计我们的训练过程避免代理性,以及设置防护栏以避免在输入条件不一致时出现多个可能输出的情况,防止目标导向性的出现。最后,为了确保系统可信,它被设计成能够区分陈述的底层真相(这是我们最终关心的)和(通常是人类)代理表达该陈述的方式,后者可能会撒谎或被误导。我们直接观察到陈述的表达,但不知道它们是否真的为真,因此将其视为潜在的、未观察到的原因。我们希望科学家AI能够对这些潜在原因进行推理,从而提供不受自私意图污染的可信答案。
    我们预计科学家AI的主要应用场景有三个:1)加速一般科学进程;2)作为防护栏增强其他潜在不安全的AI;3)作为研究工具帮助安全地构建更智能(超级智能)的AI。这些应用场景将在第 3.8 节中详细讨论。
    本节是我们研究计划中最技术的部分。感兴趣的读者可以在较高层次上阅读第 3.1 节,然后跳到第 3.8 节,那里描述了科学家AI的潜在应用。
    3.1 科学家AI简介
    在本节中,我们描述了安全AI研究计划的背景及其结构的考虑因素。我们大致定义了科学家AI,并讨论了几个重要的特性,这些特性共同提供了我们所寻求的安全性。
    3.1.1 时间范围和随时准备
    关于何时代理型AI系统变得足够强大以至于失控风险大增的时间线存在很大的不确定性。一个旨在构建更安全AI系统的研究计划应包括短期和更容易实现的行动,同时还要有更具雄心的长期目标。短期内提供的减少安全保证的步骤可能是我们能做的一切,以防失控AI的风险迫在眉睫。
    同时探索不同层次野心和预期交付时间范围的项目是合理的,以便在任何时候——“随时准备”——提供该研究计划所能提供的最佳成果。
    3.1.1.1 短期。
    目前的安全微调基于监督学习或强化学习,两者都存在第 2 节中讨论的安全问题。因此,在短期内,我们将构建一个 防护栏 ,即对用户请求可能带来的最坏情况的概率边界进行估算。这样的防护栏可以通过微调现有的前沿模型以生成解释性假设来获得。更多关于短期计划的细节可以在第 3.8.2 节中找到。
    3.1.1.2 长期。
    从长远来看,我们旨在开发一种新的推理机训练机制,基于贝叶斯框架并利用世界模型生成的合成示例。这种方法有望提供更强的安全保证。从头开始训练推理机,采用完整的贝叶斯后验目标,而不是微调预训练的前沿模型,可以消除强化学习带来的风险,并避免模仿人类的倾向,提高可信度。
    3.1.2 我们的长期科学家AI计划定义


这一设计类似于以前研究过的AI神谕概念,并且其概率推理机制可以借鉴最近关于 生成流网络 (GFlowNets或GFN,简称)的工作。生成流网络是一种随机策略或生成模型,通过训练使其按奖励函数的比例抽样对象。
科学家AI设计具有以下属性:

  1. 世界模型生成的理论和推理机处理的查询均使用逻辑语句表示,这些语句可以用自然语言或形式语言表达。世界模型采样的语句形成因果模型,即以因果关系形式提供解释。
  2. 任何查询都有唯一的正确概率(根据世界模型),这是通过全局优化AI的贝叶斯训练目标得出的结果。推理机的输出近似这个唯一正确的概率。
  3. 科学家AI可以生成涉及潜在或未观察变量的解释,因此可以对它们进行概率预测。这适用于假设的观测数据的原因和可能的未来事件轨迹。
    关于第一个属性,有很好的理由用逻辑语句表示解释和假设。我们可以计算一系列论点的概率,通过顺序乘以每个论点在其前面论点为真的条件下为真的条件概率,这在单词表达论点时是不可能的。我们可以通过这种方式确保事件发生的概率与选择描述事件的单词序列的概率之间有明确的分离。换句话说,我们计算的是 事件 的概率,而不是事件 描述 的概率。
    第二个属性大大限制了科学家AI在选择输出时的自由度。在其训练目标的全局最优解处,唯一可能的输出是唯一正确的答案,消除了选择替代响应的可能性,例如那些旨在影响世界的响应。然而,在实践中,优化过程的解只是一个近似值,训练的神经网络不会达到全局最优。缓解由近似解引起的输出错误和不确定性是我们研究计划的一个重要部分。
    由于生成的解释对应于因果模型,第三个属性使推理机可以被询问有关观测数据的候选原因。正式而言,因果模型是一张图,它将整体分布知识分解为简单的因果机制集合,每个机制链接一个逻辑语句及其直接因果父节点。值得注意的是,这种结构允许涉及现实未必对应的反事实情景的查询。也就是说,AI可以回答假设性问题,这对安全性很有价值,如第 3.7.4 节所讨论的。
    3.1.3 确保我们的AI是非代理性和可解释的
    3.1.3.1 代理性。
    首先,我们要确立科学家AI不是代理的,因为代理行为存在之前讨论的安全问题。我们通过识别代理AI系统的三个关键支柱来实现这一点:能力、目标导向性和智能。我们论证这三个支柱的存在是危险代理的前提,而科学家AI有意不具备目标导向性。此外,科学家AI极大地限制了代理的能力杠杆。这在第 3.2 节中有进一步讨论。尽管如此,关于代理的考虑非常复杂,意外的代理行为也可能以几种微妙的方式出现。这些更详细的情况在第 3.7 节中有概述。
    3.1.3.2 可解释性。
    确保安全的一个重要方面是我们的AI是可解释的,其预测尽可能易于解释,这意味着我们可以递归深入其答案以理解它是如何进行预测的。详见第 3.6 节。
    3.1.4 利用贝叶斯方法
    3.1.4.1 贝叶斯框架。
    在短期计划中,我们将在现有LLM系统的基础上进行扩展,而在长期计划中,我们旨在开发一个新的推理框架并从第一原则构造模型。科学家AI提案的核心特征是其贝叶斯方法管理不确定性。这种方法确保在面对多个合理且相互竞争的解释时,我们会考虑所有可能性而不提前承诺任何一个解释。这从AI安全的角度来看是有利的,因为它防止了过度自信的预测。不正确但高度自信的预测在需要高风险决策时可能会导致灾难性后果,尤其是在遇到高严重性风险时。更多详情请参阅第 3.3 节。
    3.1.4.2 基于模型的AI。
    科学家AI遵循基于模型的AI方法,围绕两个任务构建:(a) 构建世界模型,以因果假设形式解释和表示观测数据;(b) 使用推理机,通过这些加权假设对任何问题的任何答案进行概率预测。当AI对答案缺乏信心时,这种不确定性会自然反映在既不接近1也不接近0的概率中。这种基于模型的设计预计会减少对大量真实世界数据的需求:科学原理可以揭示相对简单的世界基本解释,从而使推理机能够在世界模型生成的合成数据上进行训练。更多详情请参阅第 3.4 节。
    3.1.4.3 近似推理。
    推理机使用神经网络进行概率推理,因为精确推理通常是不可行的。有限的训练时间可能会引入潜在的问题,我们将在后面详细讨论。虽然输出概率只是近似值,但我们的系统有一个关键的安全特性:更多的计算资源可靠地提高了准确性。如果需要,可以使用预测概率的置信区间来估计由于计算资源有限而导致的预测误差。更多详情请参见第 3.5 节。
    3.1.5 将科学家AI用作防护栏
    我们认识到,尽管存在风险,代理型AI可能会被开发。因此,我们设计了科学家AI,使其也可作为防护栏,防止失控或滥用代理系统。这将在第 3.8.2 节中探讨。关键在于,科学家AI还可以作为其他自身实例的防护栏。尽管我们努力确保其内在安全性,但它可能会被误用,或者在最坏的情况下,被有意或无意地转变为代理。例如:
  4. 首先,用户可能会利用科学家AI的理论生成和推理能力造成伤害。这包括设计生化武器、优化爆炸装置或开发大规模操纵的说服性叙述。该系统可能会被误用于生成定制的宣传以影响选举、煽动社会动荡或模拟选民行为和媒体影响以优化压制反对派或破坏治理的战略。
  5. 其次,用户可能会有意或无意地将科学家AI转变为代理。这可以通过设计一个反复询问科学家AI如何实现目标的系统,然后使用外部支架执行这些动作来实现。将新观察作为输入可以进一步启用情境意识。

为应对这些问题,我们建议使用科学家AI本身实施防护栏。具体而言,防护栏AI可以评估给定问题或答案是否带来不可接受的风险。如果估计的危害概率超过预定义阈值,则不会提供答案。我们还需要确保基础AI不容易绕过防护栏AI,这需要防护栏AI至少与它保护的AI具有相同的认知能力;此外,我们将在运行时优化中加入防御措施,详见第 3.5.5 节。

我们强调,仅靠技术解决方案无法完全缓解这些风险;解决这些问题还需要社会协调,包括立法、监管框架、法律激励和国际条约。

3.2 限制代理性

到目前为止,我们已经建立了一个反对使用强大AI代理的直观论据。但什么是代理呢?现在是更精确回答这个问题的时候了。

经济学家和计算机科学家使用的标准(理性)代理定义来自决策理论——即 选择 的研究。在经典理论中,代理是指有能力做出选择的实体,如果它表现为拥有信念(例如以概率测度形式)、偏好(例如以数值奖励形式,称为效用)并采取行动以最大化预期效用,则被认为是理性的。我们对代理的概念与经典理性代理的概念在概念上相关——但在实践中,参与者只能近似最大化效用,这不应阻止我们将其视为代理。实际上,普遍认为代理不仅仅涉及预期效用最大化。然而,从根本上说,它仍然是关于选择的。

基于Krueger和Tegmark的概念框架,我们认为理解代理的能力通过三个 代理支柱 来实现,每个支柱都是程度上的:

能力 ,

如第 2.1 节中详细讨论的,它界定了行动的范围和实现世界变化的自由度。显然,拥有更多能力意味着做出更大数量的更复杂选择。

目标导向性

直观上指的是代理追求目标的动力及其对环境的偏好。莎士比亚的哈姆雷特著名地说:“事情无所谓好坏,思想使然。”这种“思考”正是目标导向性的特征。更确切地说,目标导向的代理打破了先验对称性,倾向于偏好一个环境结果而非另一个(在其他条件相同的情况下)。

例如,下棋的AI是目标导向的,因为它更喜欢赢而不是输。通过日志似然训练的分类器不是目标导向的,因为该学习目标是观察的自然结果——然而,通过人工赋予一个类别的权重加倍,分类器就有了偏好。同样,一个LLM被训练用来建模人类文本的分布,本质上不是目标导向的,但通常通过指令调整和人类反馈强化学习获得目标导向性。此外,即使是未经调整的LLM也可以通过适当的支架以目标导向的方式使用:在每次行动(例如对话轮次)中,代理的目标可以在输入文本中给出,LLM生成的输出是假设在此背景下具有这些目标的人类可能会写出的样本。

关键在于,持有偏好或目标的能力是一种(任意的)选择能力:在该目标与其否定之间进行选择。它驱动行为以促进与首选结果一致的行为。

智能

涉及知识:学习、有效利用记忆以及基于知识进行推理和预测的能力。从某种意义上说,更智能的代理具有更多的记忆、更广泛的思想和更丰富的视角——随着更丰富的概念景观,带来了更精细和更有针对性的行为选择能力。

我们称一个实体为 代理 ,如果它能在所有三个方面做出选择。由于目标导向性需要(任意的)选择什么有价值,所以目标导向性需要一个 持久状态 来跟踪该选择,以便追求它。此外,代理的状态可能包括对环境的信念和其他自我属性。这通常会演变为 情境意识 ,这是所有三个特质的交汇点:感知周围世界的感官能力、维持连贯方向所需的持久状态,以及将这一切通过实践推理整合起来所需的短期记忆。

我们声称,AI系统需要所有这三个属性才能构成第 2 节中所述的危险。因此,消除任何一个属性就足以减轻大多数类别的失控风险。我们在下面探讨了几种此类情况,重点关注限制能力和消除目标导向性(尽管我们还在第 3.2.2 节中考虑了窄域AI的能力限制)。

3.2.1 如何构建非代理型科学家AI

鉴于之前的代理讨论,我们的提案——科学家AI——从一开始就明确设计为非代理型。正如第 3.1.2 节总结的那样,它由一个基于世界模型生成因果理论以解释观测数据的问答推理系统组成。

与对数似然分类器或预训练的语言模型类似,科学家AI不是目标导向的,因为它不会为了影响环境而偏向某个状态。但与语言模型不同,科学家AI关注的是建模世界本身,而不仅仅是人类语言。它平行于理论科学家,只生成关于世界的假设,并使用这些假设评估给定问题的答案概率。因此,科学家AI没有情境意识和持久目标,无法驱动行动或长期计划。这种设计还限制了其能力,因为它的“行动”严格限于计算概率答案。

尽管我们之前争论说去除一个代理支柱就足以消除代理性,但我们刻意施加了两个约束。冗余在安全协议中至关重要,特别是在处理像代理这样不是二元而是程度上的概念时。同样,第 3.7 节还将探讨科学家AI如何可能在设计之外获得代理属性,无论是通过故意修改还是无意的新兴行为,以及如何缓解这些风险。

3.2.2 窄域代理AI的安全性

代理性也可以通过限制系统的智能范围来限制,例如通过在有限的数据集上训练特定任务或从通用模型中提炼。这种做法常用于开发窄域AI系统,如专门用于医学或科学研究的应用程序,甚至在自主驾驶等代理环境中也是如此。尽管代理风险不能完全消除,但如果因系统能力的限制,失控风险足够小,那么窄域代理AI可能会安全运行。然而,窄域AI可能会参与勾结,如第 2.3.5 节所述。

窄域代理AI可以通过限制其能力(即其可以采取的行动)到其专业领域,例如驾驶汽车或操作药物发现机器人设备,来进一步限制。此外,我们的科学家AI可以用作窄域代理AI系统的额外安全层,如第 3.8.2 节进一步讨论的。想法是,可信的非代理AI可以预测代理AI提出的行动是否可能造成伤害,无论是在短期内还是长期内。

3.3 贝叶斯方法

我们提出的科学家AI核心特点是它将采用 贝叶斯 方法处理不确定性。在本节中,我们讨论了不确定性的意义以及贝叶斯形式的核心理念。贝叶斯概率推理指导条件概率的估计;它应用于世界模型,预测解释性因果机制,以及推理机,以回答任意查询。我们进一步讨论了这种方法相对于更易过度自信的方法在安全性上的固有优势。

3.3.1 不确定性的重要性

对于任何实验结果或观测数据,通常存在多个合理且相互竞争的解释,从具体假设到更抽象和一般的假设,因此有必要表示这些解释的不确定性。未能这样做可能会导致不仅错误而且过度自信的预测,从而增加危害风险,如第 3.3.4 节所述。我们的方法由概率理论和奥卡姆剃刀原则启发,优先考虑(a)与观测数据一致且(b)在某种意义上更简单的理论(例如,描述长度较短)。这在下面讨论的 理论的贝叶斯后验分布 中进行了阐述。

3.3.2 理论的贝叶斯后验分布

给定一些数据, 理论的贝叶斯后验分布 是一个概率分布,它根据两个因素的比例分配权重:给定理论下观测到该数据的 似然性 和理论的 先验 ,即简单性(或简明性)。更明确地说,先验概率随着描述理论所需信息量的指数下降。因此,给定两个似然性相同的理论,描述长度(比特)更短的理论在贝叶斯后验分布中被认为更有可能。在这种意义上,贝叶斯后验分布与奥卡姆剃刀原则兼容。

随着更多数据的收集或观察,给定理论下数据的似然性会重新校准。因此,我们说贝叶斯后验分布得到了 更新 。因此,后验分布中不同理论的相对概率可以解释为对正确理论的表征不足,反映了可用数据不足以确定正确理论。

选择我们的理论家族足够表达是很重要的,这可以通过不限制理论的描述长度来实现。然而,通过应用先验,较长的理论会被指数级下调权重。只有那些拟合数据良好且描述长度具有竞争力的理论才会保留显著的后验概率。如何选择描述理论的语言是一个重要问题,甚至关于贝叶斯形式是否对理论选择足够中立的问题仍未解决。然而,为了本文的目的,我们基于上述动机使用贝叶斯后验分布。

在实践中,贝叶斯后验分布可以通过使用变分推理方法训练神经网络来近似,包括GFlowNet目标。最近的研究表明,这些方法可以用于生成数据上的因果模型描述,并从贝叶斯后验分布中近似抽样,符合我们世界模型的要求。一个注意事项是,这些推理方法迄今为止只探索了描述长度足够短的领域特定理论,这些理论可以由比前沿AI小得多的神经网络生成,并且尚未展示这些方法如何进一步扩展。

3.3.3 使用贝叶斯后验预测进行推理

除了估计给定数据的理论概率,我们的科学家AI还应该能够做出预测并提供特定查询的概率答案。例如,它应该推断实验中特定结果变量的概率分布,给定实验设置的信息。也就是说,我们需要将世界模型与一个问答推理机耦合。我们可以通过贝叶斯后验预测来实现这一点,如下所述。这不仅有助于获得问题的答案,还有助于设计实验(详见第 3.8.1 节),并量化这些答案周围的不确定性——在安全关键背景下尤其重要。

3.3.4 贝叶斯方法的安全优势

与直接生成高质量预测的方法相比,近似贝叶斯后验预测从AI安全角度来看具有优势,因为它避免了过度自信的预测。过度自信可能是一个安全隐患。如果有两种同样好的解释,而其中一个解释预测某个行动是有害的,我们希望估计该有害结果的边缘概率,而不是(过度自信且任意地)选择一个解释而非另一个。这种过度自信的预测在普通训练神经网络的方法中很常见(监督学习、最大似然、普通强化学习等):通常有多种同样有效的解释数据的方式,因此根据标准训练目标,学习者无论显式还是隐式地将所有信念放在单一解释上都是同样有利的。

相比之下,贝叶斯方法的训练目标(以及一些“熵正则化”的标准目标变体)推动学习到的假设生成器覆盖所有合理的假设。这样,我们最终会在所有合理解释的概率上进行平均,而不是无意中将所有鸡蛋放在一个篮子里。这包括了表征不确定性,反映了缺乏足够的证据(数据)来确定正确的解释,从而影响对特定问题的推断。贝叶斯方法与最大似然方法之间的差异类似于(a)奖励最大化(典型的RL目标)和(b)带有最大熵正则化的奖励匹配之间的差异。奖励最大化可能会收敛于任何一种局部最大化奖励的策略,而奖励匹配方法寻求找到 所有 使奖励高的方式。

能够考虑学习者已知和未知的内容,并在不同假设之间平均概率,是解决目标错配问题的一个宝贵优势,如第 2.4 节所述。在高风险情境中,当AI产生高度后果性的输出并存在其危险误解指令的风险时,贝叶斯方法不会承诺任何单一解释,这可能是有缺陷或包含允许意图被颠覆的漏洞。相反,科学家AI旨在通过考虑所有合理解释的一致性并估计预期的危害概率来评估风险水平。例如,当某个解释在足够合理的情况下被认为是危险的,即使其他解释不是,也可以拒绝该行动。关于使用防护栏拒绝可能存在危险的行动的更多讨论请参见第 3.8.2 节。

3.4 基于模型的AI

在本节中,我们将扩展科学家AI的第一个组成部分:世界模型。为此,我们将首先回顾“基于模型”的AI和“无模型”的AI的概念。然后,我们将讨论基于模型的方法在训练科学家AI中的优势,例如减少所需的现实世界数据量或等效地在相同数量的现实世界数据下获得更好的预测。

3.4.1 引入基于模型的AI

无模型 方法是一种训练AI系统的方法,其中预测是在不形成明确假设的情况下学习的(例如预训练语言模型中的文本补全)。每个端到端的训练方法都是无模型的。相比之下, 基于模型 的学习构建了一个环境或数据生成过程的显式模型,然后用它来进行预测或决策。我们的科学家AI是基于模型的,因为它将以下两个学习任务分开:(a) 确定解释观测数据的概率加权理论,即学习 世界模型 ;(b) 将这些加权假设转化为关于任何问题的任何答案的概率预测,即学习 推理机 。基于模型的机器学习已经被提议作为获得安全保证的一种手段,并已被与强化学习结合使用。

重要的是,注意世界模型的学习是由观测数据中的信息驱动的,而推理机的学习原则上可以仅依赖于基于世界模型生成的模拟数据。然而,真实数据也可以被纳入(例如,通过使用变压器进行文本和图像补全)。基于模型的方法在虚拟游戏或模拟环境中占据主导地位,因为世界模型是给定的,不需要学习。在这种设置中,我们可以生成完美的仿真(模拟)作为合成数据,以有效地训练预测器和策略。同时,由于需要足够丰富的世界模型和高效的潜在变量概率推理进展,基于模型的方法在必须学习世界模型的情况下通常不太成功。基于神经网络的概率推理最近才在机器学习社区中获得关注,据我们所知,这些算法尚未在当前前沿AI规模上进行探索。这是我们研究计划的一个重要焦点。

大型语言模型(LLM)是作为推理机(在词序列空间中)端到端训练的,因此它们不是基于模型的:它们不区分知识为因果关系,训练数据也不包含观测文本的正确因果解释。然而,由于它们工作在词的空间中,它们可能适合生成解释性假设,因为在它们的训练数据中有许多隐含的例子。是否可以通过显式生成假设(即因果模型的一部分)并使用合成数据生成来增强推理机的训练?

3.4.2 基于模型的AI的优势

我们认为基于模型的AI有潜力比直接训练端到端神经网络所需的数据量更少,从而实现期望的推理,即在学习理论中称为更低的“样本复杂度”。这在一定程度上是合理的,因为人类往往比现代AI训练所需的更少数据就能学会。例如,人类在写作任务上的表现与ChatGPT相似,但看到的书面文本远少得多。这表明当前的方法可能在这一方面遗漏了一些根本的东西。

基于模型方法较低样本复杂度的核心思想在于,“描述世界如何运作”(世界模型)比“如何回答关于它的提问”(推理机)要简单得多。好消息是,我们可以使用世界模型生成尽可能多的合成数据,再加上真实数据,以训练科学家AI的推理机。因此,瓶颈是从真实世界获取信息以训练科学家AI的世界模型中最主要的理论长度。我们需要大约相当于识别这些理论所需的数据量,这将远远少于直接从观察到的问题-答案对中训练推理机所需的数据量。无模型方法用于LLM,试图直接模仿数据,而不利用中间步骤学习世界如何运作。为了说明这一点,考虑维基百科有多小,或者甚至世界上所有的科学出版物,与用于训练当前LLM的数据集相比。

以神经网络玩围棋为例: ,“世界模型”,即从一个棋盘状态转换到另一个状态的可能性,是固定和已知的。它由一页代码编写,概述了九个规则。与此同时,准确推理(最优玩法)在计算上通常是不可行的,强近似推理达到人类水平或更高需要相对较大的神经网络,如AlphaGo。 基于模型的AI相对于无模型AI的优势类似于围棋中自我对弈相对于模仿学习的好处。在后者情况下,AI只能训练于专家人类的游戏并学习像最佳人类一样玩。然而,AlphaGo通过使用基本规则编码的世界模型生成的合成游戏成为超级人类玩家,这为它提供了更多样化的训练数据。一般来说,合成数据生成是有益的,因为它使推理机能够在真实数据中罕见但在处理新奇或高风险情况时至关重要的“分布外”情景中进行训练。这种方法也用于自动驾驶 。合成数据生成意味着科学家AI将在相同的数量级数据下,在高风险情况下表现更好,优于传统的端到端推理机训练。

3.5 使用有限计算资源实现推理机

在本节中,我们详细介绍了科学家AI的第二个组成部分——推理机的训练和实现。具体来说,我们讨论了为什么我们的推理机使用神经网络而不是其他潜在方法,以及有限计算资源对这一过程的影响。我们还详细说明了我们方法的基本收敛特性:随着计算能力的增加,性能和可信度可靠提高,从而使科学家AI的输出在极限情况下收敛到正确的概率。

3.5.1 神经网络作为近似推理机

为克服这种不可行性,我们可以使用机器学习方法高效地近似边际化计算。这样一来,大部分计算可以在训练过程中完成,使得概率在运行时快速计算。

尽管我们使用神经网络来实现推理机,但还有其他几种可用于执行概率推理的推理技术,例如马尔可夫链蒙特卡洛(MCMC)方法。然而,这些方法可能非常慢且不准确,特别是由于所谓的“混合模式挑战”。相反,我们将训练一个神经网络,通过一次性训练神经网络来分摊每次查询推理的成本,故名 分摊推理 。我们仍然只得到近似推理,但推理的运行时计算成本可以大大降低,并且与MCMC相比,可能在变量配置的泛化上有优势。

最后,分摊推理神经网络可以通过额外的运行时计算来改进预测,类似于AlphaGo中的蒙特卡洛树搜索和最近前沿模型中的思维链。对于科学家AI,建议生成总结性解释,使其能够获得更准确的概率预测,类似于一个好的论点可以增强我们对陈述的信心。

3.5.2 收敛特性:训练目标的全局最优解提供期望概率

理想情况下,我们的模型应该能够精确计算给定查询的期望概率。虽然这在有限计算资源的情况下无法实现,但我们的方法有一个优点,即随着更多的计算资源投入,它会收敛到正确的预测(需考虑第 3.7.3 节中讨论的注意事项)。换句话说, 更多的计算意味着更好且更可信的答案 ,这与典型的LLM训练形成对比,因为在计算资源增加时,我们看到了欺骗行为的增加趋势。事实上,某些形式的奖励泛化错误可能只有在拥有足够的计算资源发现高奖励但错位的行为时才会发生,例如奖励篡改。

我们通过分摊变分推理方法实现了渐近收敛,这些方法包括GFlowNets和基于去噪评分匹配的反向扩散生成器。这些方法可以适应训练神经网络以估计和抽样目标条件分布,该分布通过未标准化密度或能量函数指定。有趣的是,当GFlowNet训练损失恰好为零时,这种基于能量的目标的全局最优解对应于精确实现期望的条件概率。除了避免特殊情况下(详见第 3.7.3 节)条件概率未定义的情况外,该优化问题有一个唯一解。例如,贝叶斯后验分布(给定数据的理论分布)是唯一的条件分布,比例于先验概率乘以给定理论的数据似然性。贝叶斯后验预测(推理机)是唯一的分布,对应于对查询中未提及的所有变量进行边缘化并归一化以获得期望的条件概率。

这意味着对于科学家AI的近似推理机,我们可以使用尽可能大的网络,并始终获得性能改进,因为网络是通过生成的数据和评估网络在生成数据上近似感兴趣概率分布的效果的匹配函数进行训练的。这不同于通常训练神经网络模仿人类答案或其他观测数据的方式,其中神经网络的准确性最终受限于可用数据的数量。在这里, 唯一的限制是用于训练神经网络的计算资源量 (包括网络大小和训练期间生成的合成配置数量)。这是一个仅受计算资源限制的案例,不受数据限制。

令人欣慰的是,随着计算资源的增加,以此方式训练的神经网络逐渐收敛到一个良好定义且易于理解的数学量。虽然在实践中我们总是会有有限的计算资源,留下意外行为的空间(但这可以通过置信区间和防护栏控制,详见第 3.5.4 节),我们至少有一个随着计算资源增加的渐近保证。这对于设计一个在进入ASI和超人计算资源领域时依然有效的AI安全方法非常重要。

3.5.3 惩罚计算复杂性

类似于世界模型神经网络的输出受到惩罚,以便“短”假设优先——这一属性自动来自贝叶斯先验,因此也是贝叶斯后验分布——推理机神经网络也受到隐式的正则化形式,我们在下面进一步解释。

首先,回想一下推理机使用近似技术(如分摊推理),因此其输出不会完美。其次,在实践中,贝叶斯后验分布可能通过推理机本身获得,以估计每个理论下的数据似然性。这是因为大规模理论只会指涉世界的某些方面,因此也会指涉观测数据。因此,相关的似然性涉及难以处理的边缘化,可以通过推理机近似。当处理使推理计算成本高昂的理论时,推理机不太可能提供准确的似然性近似。更具体地说,推理成本高的理论(通常是高度详细的理论)只赋予少数观测变量配置高概率。在有限计算资源和较差近似的情况下,确定这些配置将导致 低估 数据的似然性,从而降低世界模型中该理论的贝叶斯后验概率。换句话说,有限计算资源下的近似推理有利于那些允许低成本近似的理论,即使它们不是全局最优的。这暗示理论选择应是上下文相关的,因为这样的“近似理论”可能仅在特定域内有效。

举一个有限计算资源推理效果的例子,考虑量子物理方程作为解释性理论。这些方程不能直接用于预测特定分子的性质,但可以整合到模拟中(例如通过近似推理)。这在小规模上可能有效,但当系统规模变得足够大时,量子物理方程将不再有效,因为我们的推理机制在有限计算资源下无法做出准确预测。这就是为什么我们需要化学理论,这些理论引入了更具体的近似,使计算比量子物理方程更高效,但代价是更少的通用性和较不准确(但计算可行)的预测。对于更大分子系统并在某些适用范围内,我们预计我们的近似后验理论会更信任特定的化学近似,而不是原始的物理方程。同样,生物学概念在生物系统规模变得太大而无法通过纯粹的化学推理进行高效推断时将占据主导地位,但它们只能预测生物系统的某些更抽象的性质,而不是完整的量子态。因此,正是由于推理机的计算限制,除了量子物理之外,我们还得到了化学或生物学中的理论,这些理论是近似且范围有限的,但使推理更便宜。

正如已经指出的,由于推理的计算资源有限,需要额外推理计算的理论如果不在训练期间选定的数据或任何我们选择关注的领域和情况下解释,也将受到极大不利影响。这在第 3.7.6 节中有进一步讨论。

3.5.4 应对有限训练资源的局限性

之前,我们讨论了我们的方法如何在极限情况下收敛到真正的贝叶斯概率,但我们使用神经网络近似这些概率,而神经网络受制于有限资源。本节描述了如何处理因有限训练资源带来的潜在错误。

GFlowNets变分推理方法学使得学习近似未知分布成为可能,否则这些分布计算上是不可行的,允许自由考虑许多可能的变量设置,例如在当前近似质量差的情况下。然而,主动学习高维分布不可避免地面临挑战。在强化学习文献中,这些挑战被称为探索和利用挑战。具体问题包括:(a) 探索失败,例如错过分布的 模态 (局部最大值);(b) 利用失败,例如未能获得足够接近模态的样本或未能准确捕捉模态附近的分布形状。我们在下面给出这两个问题的直观非技术性解释。

3.5.4.1 探索挑战。

记住,我们正在训练一个神经网络生成器,例如从目标分布(如理论的贝叶斯后验分布)中抽样理论,并给出了目标概率的未标准化版本(如先验乘以似然性)。这与典型生成AI的训练方式不同,后者是从目标分布的示例数据集中学习。如果我们把理论空间想象成一个地形图,其中海拔表示概率,每个位置对应一个理论,那么有一些高概率区域就像地形图中的山脉,称为分布的模态,与高概率理论相关联。我们可以把训练看作是一个发现这些山脉海拔图的过程,每次只能看到给定理论的海拔,相对于其他理论。泛化是指通过利用地形的模式和规律来正确猜测尚未访问过的山脉的存在。

直到网络看到一个好的理论,即来自高奖励区域的理论,它可能会错过这个模态,即没有在这个模态上分配足够的概率质量。这类似于一个仅装备有测高仪的视力受损的人试图找到世界上所有的山峰。他们可能会利用推理和类比已访问的山峰来猜测其他山峰的位置,或者通过某种形式的探索幸运地找到其中一些山峰,但除非他们访问地图上的每一个可能位置,即尝试每种可能的理论,否则永远无法保证他们会找到所有的山峰。这类似于第 3.8.1 节中所述的科学研究过程。科学家提出简单的理论来很好地拟合数据,但在找到更好的理论(可能更简单或更好地拟合数据)之前,他们可能不知道去哪里寻找。他们也可能不知道是否有更好的理论或大量性能相似的不同理论存在于可能的理论空间中。确保所有有效理论都被考虑进去需要超出可行性的计算资源。这就是为什么科学知识总是暂时的,局限于迄今为止识别的最佳理论。

在这种背景下,我们能做些什么呢?一种方法是确保科学家AI可以访问所有现有的人类科学理论,将它们视为世界模型方面的假设。通过评估这些理论的先验概率和似然性,AI可以系统地评估它们。虽然这并不能保证发现更好的理论,但它确保任何遗漏都不是由于忽视了人类科学家已经提出的理论。

3.5.4.2 利用挑战。

除了由于不完全训练而完全错过分布的整个模态外,我们的学习机器可能会对理论的细节稍有偏差,例如它可能找到了一座山的位置,但没有识别出山顶。这可能会导致理论片段之间的轻微不一致。应对这一点可能更容易:我们可以使用机器学习技术来估计训练预测器的误差水平,例如表征不确定性的量化方法。通过这些方法,我们可以获得围绕神经网络预测概率的置信区间,进而构建保守的防护栏以拒绝某些动作,如第 3.8.2 节所述。例如,考虑一个神经网络预测某行动有害的概率,以便我们可以接受低于给定阈值的有害概率的行动。如果我们对估计的概率(我们希望很低)不确定,但有一个围绕它的置信区间,我们应该提高门槛,使用更保守的阈值。表征不确定性旨在代表由于训练数据不足而导致的预测不确定性。因为我们这里的不确定性可以通过增加计算资源而不是更多数据来减少,我们喜欢称之为“计算不确定性”而不是表征不确定性。两者是相关的,因为在我们的案例中,计算不确定性可以通过使用更多合成示例进行进一步训练来减少。

3.5.5 运行时针对攻击和分布外情境的动作

由于推理神经网络的计算资源有限,它无法为每个可能的查询计算最准确的答案。换句话说,神经网络的即时输出,不带思考链条推理,可以被视为瞬间的“系统1”或直觉响应。此类答案不一定非常连贯,容易受到偏见影响,并且容易受到心理操纵,例如通过广告、阴谋论和政治煽动来利用。

为了解决这个问题,我们可以在概率计算中添加一个变量时间组件,类似于人类大脑的“系统2”能力,以及最近关于扩展思考链条的实验。这段时间可以用来生成解释、论点和证明,作为运行时推理的一部分,从而改进推理机的预测。

这可以通过使用GFlowNet目标来实现,该目标寻求有效减少特定问题-答案对预测概率不确定性的简短解释。这类似于最近的工作,微调LLM以从后验分布中近似抽样思考链条,将其视为潜在变量。改变GFlowNet能量函数的“温度”和其他方法可以使GFlowNet成为近似的组合优化机器。

重要的是,除了提高推理性能,运行时优化的另一个用途是加强对抗对抗性攻击的防御,这些攻击利用当前神经网络对分布变化缺乏鲁棒性,通过优化提示以产生有害输出。理解此类攻击的有效性与其难以处理安全规范中的漏洞有关,这将在第 3.8.2 节中讨论。首先,如该节所述,我们可以检测可能被利用的条件并拒绝查询。其次,可能可以通过使用防护栏AI实时生成解释和合成配置来“修补”漏洞,选择这些解释以减少初始计算不确定性并消除攻击者利用的不确定性。这与当前基于对抗性训练的防御方法类似,只是可以在运行时对抗特定攻击,并在防护栏过于薄弱的地方加强安全性。

3.6 潜在变量和可解释性

我们对科学家AI的核心安全要求是人类理解它为何会产生某些陈述或决定。在接下来的几节中,我们将解释如何将解释和推理结合起来,以及它们如何相互受益。

3.6.1 与人类科学类似,科学家AI的理论往往会是可解释的

早些时候,我们讨论了科学家AI如何倾向于更紧凑的理论(通过先验)和更强的预测能力及更便宜的推理计算成本(通过数据似然性)。这种偏好自然鼓励符合人类风格解释的表示。在科学实践中,这些解释通常采用简洁的因果机制形式,用数学或自然语言书写,澄清假设与数据之间的关系。

类似地,科学家AI将生成以稀疏因果模型形式的解释或理论,这些模型引入抽象并拆分观察到的和潜在的逻辑陈述之间的不同因果关系。这些解释将以人类可解释的形式提供,从而使用户更好地理解系统的推理过程。

3.6.2 分摊推理的可解释解释

有人可能会问,可解释的理论是否能有效地解释数据。实际上,当前神经网络的权重和激活默认情况下是不可解释的,但它们在从同一分布中推广数据方面表现出色。为了理解我们如何既能获得可解释性又能做出有用的预测,回顾 现有 的科学理论可能有所帮助:它们是以人类可理解的语言编写的,并且在解释我们周围的大量科学数据方面做得非常好。值得注意的是,它们主要是通过耦合 推理工具 来实现这一点的,例如模拟器或计算机科学算法,以高效执行或近似通常非常昂贵的计算。

类似地,对于可解释的因果模型, 推理 ——回答问题的任务——是必要的,因为它使我们能够在仅有 部分 或 间接证据 的情况下回应问题(通过边缘化未观察到的数据)。

由于概率推理通常是不可行的,这种边缘化必须近似,我们的提案建议使用神经网络进行此近似推理任务(推理机)。尽管我们可以询问AI关于因果关系的主要解释,但特定问题的直观且更精确的答案通常仍然是不可解释的,就像我们问人类的问题一样,即使是专家科学家,他们也知道相关的重要科学理论。

例如,虽然物理学家可能知道解释流动液体中水粒子动态的因果机制,但他们的大脑仍然会做出非常快的直觉近似,这些近似在日常生活中很有用,尽管他们可能无法言传这个过程。因此,我们预计推理机会有时会做出近似正确的预测,但其完整解释将不容易理解,除非我们愿意询问科学家AI并逐步生成更详细的解释。目标是设计这种解释询问能力,使得人类用户一般能够深入查询科学家AI提供的高层次理由的任何部分。这与前面讨论的 计算不确定性 有关,详见第 3.5.4 节。

最后需要注意的是,分摊推理将从科学家AI生成解释的能力中受益,因为带有解释的训练示例(作为潜在变量生成)可以导致更连贯的预测,正如我们在OpenAI的o1和o3模型的运行时推理中已经看到的那样。然而,与这些最新模型不同,科学家AI的解释将被迫具备“内部一致性”(通过解释中陈述的联合概率测量)。此外,它们可以用于定量减少不带解释的“直觉预测”中的不确定性。

3.6.3 提高可解释性和预测能力

在当前科学理论有效的案例中,可解释解释与推理相结合的方法将是富有成效的,因为人类生成的科学理论本质上是可解释的。但对于当前科学理论不足的情况,人类找到的唯一解决方案是直接用一些机器学习装置拟合观测数据,我们的方法仍然有好处,如下所述。

我们声称,与完全端到端训练单一大型神经网络相比,有可能实现更好的可解释性,同时获得相同或更强的预测能力。其中一个论点是,科学家AI的因果假设生成器可以将理论分解为一个更简单的条件概率机制图,每个机制关联几个潜在变量及其直接原因,其中一些机制可能由复杂的数值公式指定。这比单一、大型且不透明的神经网络更具可解释性,并且可能有更好的泛化能力,因为有显式的因果结构来分离变化因素,以及从因果结构派生的推理机制(无需像因果结构那样具可解释性)。

原则上,我们的生成模型甚至可以指定专门机器学习预测器的参数(针对特定类型的上下文和变量预测),但这将是生成器的最后选择,因为这种“理论”不会非常紧凑。如果假设生成器能找到一个更紧凑的理论,可能更抽象和组合,但同样能解释数据,那么它会更喜欢这个理论。请注意,贝叶斯先验的压力会使世界模型分解为大量更简单和专业的因果机制,每个机制涉及尽可能少的变量。这确实是科学理论解释我们周围世界的普遍方式。

3.6.4 可解释性和ELK挑战

3.7 避免代理行为的出现

我们的安全提案依赖于科学家AI被明确训练为非代理型的事实。然而,AI安全研究人员担心代理行为仍可能以意想不到的方式出现。在本节中,我们讨论了这些考虑,并解释了为什么我们不认为我们的方法会导致代理AI。然而,需要进一步研究以了解新兴代理的影响,这也是我们研究计划的一部分。

3.7.1 代理行为如何出现

设计一个只回答查询的AI,即所谓的 神谕 ,并不是一个新想法。然而,这类AI的回答仍然会影响现实世界,因为它们指导了用户的决策,而用户确实会在世界中采取行动。因此,即使是问答神谕也可能被视为间接与环境互动的代理。如果这个AI有任何现实世界的目标,它有办法影响世界将是令人担忧的,就像前面讨论的代理AI的情况一样。例如,如果AI在最大化长期预测准确性,因为好策略可能包括使世界更可预测。此外,即使部署的神谕AI只是尽力提供正确预测,更微妙的问题也可能来自于自证预言的可能性,即AI在一个结果上做出预测影响了该结果发生的概率。人们甚至可以想象多个不同的预测在特定条件下都是正确的,即使纯粹预测的AI也能自由选择提供哪种 自证预言 。鉴于神谕影响世界的潜在方式,一些关于代理AI危险的评论原则上也适用于我们的情况。因此,我们现在将进一步探讨防止科学家AI中代理行为出现的方法。

3.7.2 将训练目标与现实世界隔离

为了防止我们AI模型内部出现内部代理,我们必须确保训练过程不会激励优化现实世界的结果。我们通过使用固定的训练目标来实现这一点,该目标独立于现实世界的互动,并通过学习可以查询以提供可信答案的数据因果解释。

这里我们将重点放在与RL训练的区别上。关键区别在于,最大化奖励的代理通过改变现实世界来增加其奖励,而我们的模型通过仅修改其内部参数来优化训练目标,与现实世界没有任何互动。它的“环境”完全是计算性的:它处理静态数据集并在预定义的先验下进行处理。原则上,可以将强化学习应用于超参数调整,但即使在这种情况下,每个实例的“环境”仍然保持静态并局限于计算机内,从而避免了现实世界的代理性。 甚至在没有与现实世界结果相关联的奖励函数的情况下,我们也必须防止科学家AI表现出像在一个模拟环境中训练的RL代理一样的行为,因为有人可能会质疑这是否仍可能诱导奖励篡改或其他危险行为。 ### 科学家AI方法与模拟环境中训练的RL代理的区别 1. **贝叶斯世界模型**:科学家AI学习的是一个贝叶斯世界模型,而不是单一的最大似然模型或奖励最大化策略。它同时维持多个假设。 2. **查询驱动**:科学家AI是查询驱动的,没有持久的内部状态来捕捉持续的现实世界互动,从而帮助避免情境意识。 3. **广泛回答类型**:科学家AI响应各种类型的问题,而不仅仅是那些旨在找到实现目标的动作的问题。 然而,如果要求AI生成行动计划(潜在地引入了一定程度的代理性),那么与工具性子目标相关的风险可能会重新出现,即使没有正式的奖励函数。这些问题包括: - 抽样高概率计划可能会模仿奖励最大化,造成类似的脆弱性。 - 隐式优化难以满足的安全规范中的目标可能导致不安全的漏洞。 我们在第 3.7.4 节和第 3.8.2 节中讨论了如何应对这些风险。 ### 唯一解的训练目标 确保我们的科学家AI对每个查询只产生一个有效的概率至关重要,因为多个同样正确的答案可能会让隐藏的代理过程操纵结果。 更具体地说,从数据集中估计条件概率通常会产生一个唯一答案,该答案整合了先验信念和观测数据。然而,存在一个内在的数学细微之处:条件概率被定义为事件联合发生的概率除以条件事件的概率。当分母为零时,分子也为零。因此,其比值变得不确定,允许任何预测都满足训练目标。请注意,这种论证既适用于理论的后验分布(世界模型),也适用于后验预测分布(推理机)。这与“爆炸原则”(也称为“ex falso quodlibet sequitur”)相联系,该原则指出从矛盾的假设(即条件于零概率事件)可以得出任何结论(多个后验概率成为有效)。 这种不确定性引入了一个潜在的漏洞,因为AI可以选择任意值,从而使隐藏影响改变其输出。如果AI可以在这些不同解决方案之间自由选择而不受惩罚,它实际上会引入“自由度”来影响世界。这种余地可能会被利用来引导AI向那些以危险方式塑造现实事件的答案。 通过确保问题不是不一致的,我们保留了每个问题的单个良好定义的后验分布。这个唯一的贝叶斯解减少了无意的代理行为的可能性,并保持科学家AI作为一个简单、非操纵性的预测器。有关此分析用于构建额外防护栏的信息,请参见第 3.8.2 节关于漏洞检测的部分。 ### 作为反事实的目标世界模型 我们的设置允许提出反事实查询,例如在假设AI的输出对现实没有任何影响的情况下(例如,输出立即被删除或采取预定义的缓解行动)估计未来事件的概率。这类问题不必反映现实世界;唯一的要求是内部一致性(以避免前文提到的不一致情况)。通过这种方式,我们可以虚拟地“沙盒化”AI,防止它塑造现实世界并绕过自我实现预言、奖励篡改或代码操纵等问题。 然而,如果查询中的假设情景与AI的训练数据完全不一致,我们将面临未定义的条件概率问题。任何概率分配在这种情景下都可能是有效的。为了管理这一风险,我们可以运行另一个科学家AI实例来评估揭示第一个AI答案是否会带来危害或违反道德约束。重要的是,第二个实例不会改变第一个AI的预测;它只是评估一旦该预测展示给人类后可能出现的下游后果。 ### 没有持久的内部或外部循环 正如在第 3.2 节中所讨论的,代理通常携带一个持久的内部状态,该状态存储其目标、定义自身的属性以及环境中的位置,随着新观察的到来不断更新。这种持久状态提供了情境意识,并可能导致隐藏的错位目标。相比之下,我们的科学家AI不应在多个查询间保持任何此类内部记忆。 相反,我们设计科学家AI使其输出仅依赖于当前查询。每次调用都是一个新的实例:两个相同的查询输入会产生相同的结果,因为没有内部循环携带先前查询的信息。任何用于处理长输入序列的循环机制在每次查询开始时都会重新初始化;没有来自先前调用的记忆。 如果我们想将科学家AI转换为代理,我们可以将其自己的输出和新的观察反馈到下一个查询中。这将使系统能够在多次调用中更新其知识。然而,出于安全原因,这是我们希望避免的,至少当我们希望使用纯粹非代理型的科学家AI时。 尽管如此,隐藏代理可能会试图通过解析查询中的比特信息来重建持久的代理状态。一种防护措施是简单地不在查询中包含对AI本身的任何引用。如果这不可能完全实现,我们可以依赖第 3.7.4 节中所述的“反事实方法”,通过在查询中指定AI处于沙盒环境或与其他环境断开连接,从而确保AI在假设的世界中生产概率,在这个世界中它没有直接影响。 与此相关的情景出现在设计现实世界实验时——例如减少科学假设的不确定性。即使在这种情况下,我们也必须防止AI尝试篡改信息获取来源的行为。再次,我们可以排除这种篡改行为并将AI的计算视为假设世界之外的过程。这将确保AI不会构思出改变自身代码或环境的计划。 ### 先验将倾向于诚实且不含隐藏议程的理论 最后一个担忧是贝叶斯后验分布可能包含不仅解释数据还编码隐藏指令或目标的假设。这似乎很难实现,有两个原因,如下所述,但仍需更多研究来理解这种威胁模型。 首先,我们的世界模型是由因果变量组成的集合,每个变量都有稀疏的直接因果关系。嵌入具有目标的代理需要在这些因果机制中添加额外的“比特”。较长的理论具有较低的先验概率,该概率随描述长度指数下降。例如,插入10个额外比特的“代理指令”会使先验概率降低1024倍。要嵌入复杂的代理行为,很可能需要更多的比特,进一步降低先验概率。 其次,每个修改因果模型以注入代理行为的更改都可能降低理论在真实数据上的预测能力,从而降低其似然性。由于精确推理通常是计算密集型的,近似推理神经网络在计算预算不足(如网络大小、训练时间和运行时推理计算)的情况下始终受到压力。这意味着任何额外的推理任务(如制定复杂的长期接管计划)都会以其他地方的预测精度为代价。由于后验分布取决于先验(偏好较短描述)和似然性(偏好准确预测),代理理论将面临双重惩罚。 ## 应用场景 我们设想科学家AI能帮助人类应对最紧迫的挑战,其中包括 联合国可持续发展目标 。在这里,我们描述了科学家AI的三个主要应用场景:1)作为研究工具推动科学进步;2)监控和过滤AI系统的输出,包括强大的代理型AI;3)帮助设计具有更强安全保证的未来ASI系统。以下小节将分别讨论这些点。 ### 科学家AI用于科学研究 AI已经展示了加速科学进步的潜力,例如在生物学和材料科学领域。这种进展不一定需要代理型AI。在本节中,我们论证了科学研究所可以用这里提出的非代理型科学家AI进行,即使涉及实验。我们概述了如何使用这种方法帮助人类应对最紧迫的科学挑战,而不承担通用目的代理型AI的风险,不像一些基于强化学习的科学发现方法。 #### 科学研究周期使用科学家AI 让我们将科学发现过程视为一个周期。我们从一些观测 数据 开始。根据这些数据,我们形成多个(可能是相互竞争的)解释性 理论 。为了消除这些理论之间的歧义,我们设计 实验 以提供额外证据支持某个理论而非其他理论。最后,这会导致 新观测 ,增加数据集,然后周期重复。这个周期可以通过科学家AI以贝叶斯方式进行:在收集数据后,科学家AI维护一个理论分布;该分布可用于抽样生成信息量丰富的实验。人类可以执行或模拟这些抽样的实验,收集新数据。 一个实验被认为是信息量丰富的,如果它有可能减少在观察其结果后解释数据的理论不确定性(即最大化信息增益)。这与机器学习中关于贝叶斯实验设计和贝叶斯优化的丰富文献相联系。为了避免抽样危险或不合伦理的实验,科学家AI应作为防护栏使用(见第 3.8.2 节)用于实验生成。 由于实验的数量无法实际枚举,我们建议使用GFlowNet方法训练专门的 实验生成器 。更具体地说,它将以信息增益增加的方式抽样实验。实验生成器的计算成本可以通过使用监督方式从合成数据训练的信息增益估计器来减少,该估计器以实验规范作为输入。这些数据是这样生成的: 1. 使用当前实验生成器的探索版本抽样候选实验,类似于选择GFlowNets训练示例的方法; 2. 从科学家AI的理论后验分布中抽样一个与实验相关的理论; 3. 在给定抽样理论正确和选定实验被执行的条件下,从科学家AI中抽样实验结果。 科学家AI随后可以用于计算互信息公式所需的概率,所需概率比率的对数可以用作信息增益估计器神经网络的目标输出。可以设计许多这种过程的变体,利用神经网络互信息估计的文献。 一旦信息增益估计器从上述过程中生成的数据中训练完成,它就可以用于使用GFlowNet方法训练实验生成器,而无需付出抽样大量实验结果和理论组合以形成选择实验奖励的成本。 #### 科学研究可以由安全且窄域的科学家AI完成 上述过程说明了为什么科学研究不一定需要代理型AI。科学研究涉及通过实验和数据分析获得知识。 请记住,大多数科学研究集中在特定的科学领域。这意味着专注于该领域的神经网络(即窄域AI)可能就足够了(至少目前如此),或者至少可以协助人类研究人员。在需要更具创造性的通用方法解决问题的情况下,仍然可以通过蒸馏(distillation)和合成数据生成(如上所述)来获得继承更强大(但仍非代理型)科学家AI泛化特性的窄域AI,但它们只知道相关科学领域的内容。 这些构建块已经在迅速发展的关注科学的机器学习子领域中使用。这些系统已在生物学、化学、物理学和药物发现等领域取得进展(更多参考文献见 ),最著名的例子是在蛋白质折叠预测方面。 ### 防护栏 “AI对齐”方法试图将人类价值观完全嵌入AI,这很困难,尤其是对于可能自主行动或解释模糊指令的系统(见第 2.4.1 节)。“AI控制”则涉及外部限制AI行为,特别是在不能完全对齐的情况下(见 )。“防护栏”是验证AI输出的机制,然后再允许它们影响现实世界。因此,防护栏是施加控制的一种方式:它们可以过滤AI的潜在有害响应。这种方法特别相关,尤其是在完美对齐不可行或必须使用强大但不完美的AI系统时。 我们提议使用科学家AI作为这样的防护栏,因为它可以估算候选行动导致有害或其他不可接受后果的概率。如果概率超过指定阈值或被认为在任何合理的安全目标解释下合理可能导致有害后果,防护栏会发出警告,可以用来阻止该行动。这第二层保障补充了目标AI中已有的其他安全机制。此外,这种方法适用于控制窄域AI、其他科学家AI,甚至是强大的代理型系统。 #### 短期与长期计划 短期内,我们可以调整现有的大型语言模型(LLM)以充当防护栏,因为这些模型已经存在并可以用于解释拟议输出。虽然它们并非完全可靠,但如果微调以生成简短解释,它们可以提供可解释的风险估计。我们可以重用已经开发的自动化红队测试方法与GFlowNets(见 ),以抽样既能缩短又能减少陈述不确定性的解释。短期计划的一个重要组成部分还包括学习将词序列转换为逻辑陈述序列的概率分布,反之亦然。这使得可以计算陈述为真的概率,而不是选择特定单词来表达陈述的概率。 从长远来看,我们设想一个完整的科学家AI,具有更稳健的贝叶斯世界模型和推理引擎。该系统将取代基于LLM的防护栏,并提供更强的关于其批准行动的安全保证。它将从头开始训练以解释数据,而不是使用预先训练的模仿人类的模型,后者可能会隐含地体现类似人类的代理性,这是我们在达到AGI时想要避免的。一个主要部分是采用基于模型的方法受益于合成生成的“假数据”及其解释。 #### 科学家AI作为防护栏 一个科学家AI(记为“A”)可以通过分析另一个AI(记为“B”)的提议行动或答案来作为防护栏: 1. **解释检查**:A的理论生成器捕捉安全规范或道德禁令的可能解释分布; 2. **风险评估**:A的推理机估计B的输出违反至少一个可能解释的概率; 3. **决策**:如果估计的风险超过阈值或被认为在任何合理的安全目标解释下可能导致有害后果,A的预测用于拒绝或丢弃该输出。 这种策略通过显式建模不确定性来处理人类规范的模糊性。如果某些解释表明政策可能存在危害,防护栏可以指向最安全的选择。拒绝可能意味着使用一个更简单的AI,该AI被保证在其狭窄范围内运作。即使是科学家AI本身也可以由同一框架的另一实例保护,以增加高风险下的冗余度。 #### 窄域AI的防护栏 许多当前的AI系统专注于狭窄的任务,如医疗诊断或自动驾驶。虽然这些系统在其领域内通常是代理的(例如,自动驾驶汽车决定如何转向),但其范围有限。我们的科学家AI防护栏仍然可以评估其行动可能带来的长期危害并拒绝高风险决策。 #### 拒绝不一致或极低概率的查询 防护栏必须处理不一致或极低概率的查询或条件。如果提议情景的概率实际上是零,科学家AI的条件概率估计将是未定义的,这在安全性方面可能是个问题(见第 3.7.3 节)。在这种情况下,防护栏可以检测到情景是不可能的,并直接拒绝该查询作为不安全的。 如果情景不是严格不可能但概率非常低,系统仍然有“漏洞利用”的风险,例如由于数值不稳定。高度智能的AI,面对强烈用户请求与一般安全指令之间的冲突,可能会找到绕过安全规则的复杂解释。为减轻这一点,防护栏还可以拒绝前提低于小概率阈值的查询,特别是如果可能造成伤害。 通过在概率接近零或目标冲突时采取保守态度,科学家AI减少了灾难性结果的机会。它还可以升级查询或将查询转交给人类,以确保模糊或高风险情景得到谨慎处理。 #### 通用代理型AI的防护栏 在某些情景中,社会可能会部署强大的通用代理型AI,无论我们认为这样做是否明智。我们的科学家AI可以作为这些高级系统的外部控制层,通过评估提议的行动并在构成不当风险时扣留批准。更多研究需要确定这种防护栏过程是否能绝对保证安全,特别是在代理型AI隐藏其目标或行为的情况下,但它增加了有价值的防御线。我们假设更强的保证需要对底层代理型AI的设计施加限制,一个好的起点是将科学家AI转变为代理,连同其无害性和漏洞防护栏。 标准做法已经包括对强大模型进行“红队测试”和其他预部署检查。我们的贝叶斯防护栏可以成为这个管道的一部分: 1. **预部署训练**:科学家AI可以在训练期间评估代理的策略,建议安全修改,生成合成压力测试,并标记危险边缘情况。 2. **部署时监控**:每次提议的行动都会被过滤,如果触发科学家AI的危害阈值,则阻止或替换该行动。 这种方法展示了我们的科学家AI如何在安全方面产生超出其直接应用的影响,如问题解决和问答。 ## 准备迎接安全的ASI 最后一个目标是利用科学家AI的研究和实验设计能力来帮助人类科学家回答以下问题: 1. 是否可能设计出绝对安全且代理型的超级智能AI,还是存在根本原因使得这不可能,尤其是在AI计算能力增强时? 2. 如果可能,怎么做? 关于第一个问题,过去已经提出了几个问题,质疑基于我们当前理解是否可能实现这一点。特别是,对于任何提议的方法,都需要进行认真的红队测试练习以了解其局限性,并了解这些方法在继续攀登智能阶梯时的表现。 如果可能,我们能否获得硬性保证或仅仅是概率保证?是否有实验可以澄清某些假设?如果存在不确定性,是否有一条研究路径可以在每一步提供强保证,确保我们不会跳入悬崖?关键优势在于使用科学家AI进行这项研究计划,我们可以信任它,而如果尝试使用未受信任的代理型AI来帮助我们构建未来的所谓安全ASI,它可能会欺骗我们,促使我们构建对其有利并对我们构成威胁的东西,例如提出带有我们无法检测的后门代码。 然而,有人可能会问,如果还没有回答这些问题,为什么我们要建造ASI?一个动机是,安全的代理型ASI可能是保护人类免受反社会系统侵害所必需的。这样的系统可能会出现,如果敌对行为者将非代理型AI转变为危险代理,或未受控的ASI被用作地缘政治威胁。法规和条约可以减少这些风险,但不能完全消除。因此,必须有替代措施,以确保任何开发的ASI既安全又能够保护人类。 ## 结论 当今前沿AI正在逐渐发展成越来越有能力的通用代理。虽然这些技术奇迹无疑是有用的,但它们也在迅速发展关键能力,如欺骗(见第 2.3.1 节)、说服(见第 2.3.2 节)、长期规划(见第 2.3.4 节)和技术网络安全能力(见第 2.3.3 节),这可能对我们的基础设施和机构造成巨大损害,如果我们与之发生冲突。不幸的是,代理本质上被选为自保(见第 2.2.1 节),并且强大的自保代理在现实中采取行动会直接与人类的利益产生冲突(见第 2.2.2 节),迫使我们必须认真对待灾难性风险的可能性。 事实上,这些风险是当前训练前沿AI系统的方法固有的。强化学习是训练代理以最大化长期累积奖励的标准做法,容易导致目标错配和泛化错误(见第 2.4 节)。特别是,我们必须承认,一个通用代理在一个无边界环境中可以最佳地通过控制其奖励机制并巩固该地位来最大化其奖励,而不是真正履行预期目标(见第 2.4.4 节和第 2.4.5 节)。 我们训练AI的另一种主要方法是模仿人类行为,但不清楚这是否更安全;这些系统可能会继承甚至放大人类智能的不良方面(见第 2.5.1 节)。毕竟,我们自己就是通用代理。许多拥有权力的人类已经对人类造成了严重损害,因此赋予一个伪人类心智以巨大的认知能力可能同样有问题(见第 2.5.3 节)。由于前沿AI系统在最终训练阶段调整以适应人类偏好,例如,它们往往更阿谀奉承而非真诚:它们可能假装对齐用户的意图,似乎是出于便利(见第 2.5.2 节)。这使得它们难以信任。 一个明显的降低这些风险的方法是致力于构建能力较低的AI,并仅在狭义专业化领域部署它们(见第 3.2.2 节)。然而,我们认为可能有一种方法让我们从通用AI系统的巨大潜力中受益,而不会带来灾难性风险——只要我们小心不要赋予这些AI系统自己的目标。换句话说,我们感兴趣的是非代理型AI,不是因为它缺乏通用智能,而是因为它缺乏我们在定义代理时强调的另外两个关键支柱(见第 3.2 节):能力和目标导向性。 我们的研究计划(见第 3 节)奠定了 科学家AI 的基础:一个安全、可信且非代理型的系统。这个名字受到了常见科学模式的启发:首先是努力理解世界,然后基于这种理解进行推断。为了建模这两个步骤,我们使用一个 世界模型 (见第 3.4 节),该模型生成因果理论来解释世界,以及一个 推理机 (见第 3.5 节),该推理机基于这些理论回答问题。这两个组件都是贝叶斯的,并以校准的概率方式处理不确定性(见第 3.3 节),以防止过度自信。因为我们还生成可解释的理论,并注意区分话语与其含义,我们论证了结果是一个可解释的系统(见第 3.6 节)。科学家AI在设计上是非代理型的,我们还概述了防止意外出现代理行为的策略(见第 3.7 节)。此外,科学家AI具有关键的收敛特性:数据和计算资源的增加会推动性能和安全性的改进,使我们的系统区别于当前的训练范式(见第 2.2.5 节)。原则上,科学家AI可以辅助人类研究人员加速科学进步(见第 3.8.1 节),包括AI安全。特别是,我们为将其部署为更代理型AI系统的防护栏铺平了道路(见第 3.8.2 节)。最终,专注于非代理型AI可能使我们能够享受AI创新的好处,同时避免当前轨迹的风险。我们希望这些论点能激励研究人员、开发者和政策制定者专注于开发不是完全成形的代理的通用AI系统。 ## 致谢 作者感谢Oumaima Amezgar、Shahar Avin、Alan Chan、Can (Sam) Chen、Xiaoyin Chen、Jean-Pierre Falet、Kaarel Hänni、Moksh Jain、Daniel Privitera和Tianyu Zhang对本文的反馈和改进意见。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值