为对齐与治理而刻画AI代理

Atoosa Kasirzadeh 1 & { }^{1} \& 1& Iason Gabriel 2 { }^{2} 2

摘要

创建有效的AI代理治理机制需要对其核心属性的更深入理解,以及这些属性如何与代理在现实世界中的部署和操作相关的问题。本文提供了一种针对AI代理的刻画方法,重点关注四个维度:自主性、效能、目标复杂性和通用性。我们为每个维度提出了不同的分级,并认为每个维度都引发了关于这些系统设计、操作和治理的独特问题。此外,我们利用这一框架构建了不同种类AI代理的“代理画像”。这些画像有助于揭示由不同类别的AI代理带来的交叉技术与非技术治理挑战,从狭窄任务特定助手到高度自主的通用系统。通过绘制关键变化与连续性的轴线,该框架为开发者、政策制定者和公众提供了开发更好符合集体社会目标治理方法的机会。

1. 引言

AI研究人员长期以来对AI代理感兴趣,范围从强化学习(RL)代理到自动驾驶车辆(Feigenbaum, 1977; Russell 和 Norvig, 1995; Sutton 和 Barto, 2020; Wooldridge, 2000)。然而,最近的突破导致了基于强大基础模型的新一类AI代理的发展——随后补充以高级推理能力、记忆和工具使用的脚手架(Sumers 等人,2023)。基于这一架构,我们很可能在未来不久看到大量新型AI代理在各种现实领域中部署。 3 { }^{3} 3 这些代理可能采取多种形式(Casper 等人,2025),包括高级AI助手(例如Google DeepMind的Astra)、数字伴侣(例如Replika)、AI研究员或导师(例如Snorkl)、AI工作者和新型自主机器人。

为了更好地理解这一趋势并使其可处理,我们回顾了目前有影响力的AI代理的各种定义,批判性地检查其组成部分,并开发

1 { }^{1} 1 卡内基梅隆大学;atoosa@cmu.edu
2 { }^{2} 2 Google DeepMind,伦敦;iason@google.com
3 { }^{3} 3 自2023年以来,主要的技术和商业组织加速了基于基础模型的“AI代理”的发展。仅举几个例子:麦肯锡季刊发布了一份名为《为什么代理是生成式AI的下一个前沿》的报告(Yee等人,2024);Salesforce(2024)推出了一系列旨在处理客户跨功能任务的代理,设定了到2025年底部署“十亿代理”的宏伟目标;微软通过在Copilot Studio及其Dynamics 365套件中宣布新的自主代理功能(Spataro,2024)推进了这一趋势,旨在通过AI彻底改变业务流程。此外,Anthropic(2024a)引入了由Claude 3.5驱动的计算机交互功能,使AI能够查看屏幕截图并在使用兼容软件时执行诸如移动光标和点击等基本计算机操作。这允许Claude以类似于人类计算机使用的方式与计算机界面互动。
一个跟踪AI代理关键维度的框架,特别关注这些维度对技术和非技术AI治理的影响。我们将AI代理描述为能够在多个领域中进行日益复杂且具有影响的目标导向行动的系统,外部控制有限。本质上,我们的重点是一大类能够独立追求广泛目标和任务的人工系统,从而对世界施加因果影响。
AI代理的广泛部署可能会对现有的社会、经济和政治实践产生深远影响(Gabriel等人,2024)。例如,AI代理可能会通过自主执行以前需要人类工人完成的认知任务(如分析法律文件或编写软件代码)来扰乱劳动力市场。它们还可能从根本上重塑个人与AI的互动方式,成为人类持续对话者、执行者和建议来源,人类可能会与它们形成准社交关系(Kirk等人,2025)。
鉴于此,我们需要理解和分类不同种类的AI代理,探索其影响,评估其治理需求,并朝着负责任的部署努力。特别是,我们需要防范这些系统部署和使用可能带来的即时个体风险和系统性挑战(Kasirzadeh,2025)。在个体层面,这包括防止事故和恶意使用(Chan等人,2023;Uuk等人,2024)。在集体层面,这意味着理解和导航当多个人类和AI代理相互作用时出现的复杂动态,包括协调失败以及代理之间有害的竞争或共谋(Hammond等人,2025)。实际上,治理结构还需要解决如何为AI代理行为分配责任和责任的问题(Kolt,2025),如何为不同领域的AI代理操作实施监控和审计程序,如何为这些代理创建可接受行动空间和认证协议,以及如何为代理间交互构建基础设施(Chan,2025),包括识别要求(Chan,2024)。
幸运的是,当我们治理AI代理时,可以借鉴许多现有框架。例如,自动驾驶车辆监管通常使用一种模式来衡量该领域AI系统表现出的自主水平,根据车辆展示的自主水平提供量身定制的指导(汽车工程师协会,2021)。其他方法,如欧盟AI法案(欧洲理事会,2024)和国家标准与技术研究所的AI风险管理框架(Tabassi,2023),旨在对AI系统的整体风险级别进行分类,并采用与该风险相称的安全措施。然而,这两种方法都可以通过进一步参与AI代理的新特性而受益。通过映射和理解AI代理的不同维度,我们希望表明新的交叉治理问题得以显现。
本文开发了一个概念框架,用于沿四个维度绘制AI代理特征,提出了一组适用于每个维度的类别,并讨论了这些维度的治理影响。第2节探讨了计算机科学中普遍存在的AI代理概念,确定了统一这些账户的核心构成属性。后续章节(3-6)则提供了对每个属性的更详细说明、解释理由以及一组分级,说明不同属性赋予的高低水平是什么样子。第7节使用该框架阐明四种实际存在的代理AI系统的属性,为AlphaGo、ChatGPT-3.5、具备工具使用的Claude 3.5和Waymo开发“代理画像”。最后,第8节讨论了对不同种类AI代理有更好的理解后产生的治理影响,并确定了未来研究的关键方向。

2. AI代理的定义

努力理解和刻画“代理”有着悠久的历史。哲学 4 { }^{4} 4 和法律 5 { }^{5} 5 基础已经被广泛探索,不同的理论旨在解释系统、生物体和组织中代理的存在或缺失。研究人员试图分析不同类型代理,包括生物代理、 6 { }^{6} 6 认知代理、 7 { }^{7} 7 基于群体的代理、 8 { }^{8} 8 和共享代理, 9 { }^{9} 9 其扩展涵盖了多个参与者共同达成的决策。这些概念以不同方式影响了计算机科学中发现的代理理解——这种理解反过来在现代AI系统的开发中发挥了基础作用。

4 { }^{4} 4 当代哲学提供了三种主要观点来理解代理。首先,意向性观点将代理扎根于目的性行动。它坚持认为作为代理必然涉及有意图地行动,基于诸如信念和欲望等心理状态(Goldman, 1970; Davidson, 1971; Dretske, 1988; Dung, 2024)。例如,当一个人故意伸手拿咖啡杯时,他们对咖啡的渴望和对杯子内容物的信念导致了有意图的行为。其次,与之相对的是非意向性观点(Ginet, 1990; O’Connor, 2002; Lowe, 2008),它认为真实代理可以在没有事先意图计划的情况下出现。例子包括听到音乐时自发跳起来跳舞或反射性地抓住掉落的物体。这种观点拒绝了心理状态与行为之间因果关系的必要性。第三,分层观点通过强调元认知能力区分代理类型(Frankfurt, 1971; Taylor, 1977):虽然狗可能只是饿了就吃(基本欲望),但人类可以反思自己的饮食习惯(“我为什么会压力饮食?”),对态度形成看法(“我不应该让焦虑驱动我的饮食”),并创建自我管理政策(“我会在晚餐时练习正念饮食”)。本文开发的AI代理刻画不同于这些账户之处在于,它不要求代理具有类似人类的心理状态。例如,自主机器人可能成功地在一个房间内导航并进行复杂的有目标导向的活动,而无需拥有类似于人类代理对房间的信念。
5 { }^{5} 5 法律和经济学文献提供了另一个理解AI代理的重要视角(Kolt, 2025)。例如,主代理范式规定,在某些条件下,一个实体(代理)可以代表另一方(委托人)行事,从而创建权威和责任链,正如公司董事对股东的信托义务或律师对客户的义务(Grossman et al., 1992)。同样,普通法中的代理关系原则为分析AI代理提供了有价值的框架。代理法原则中关于信息披露、权限范围、忠诚义务及向次级代理委派规则的内容尤其相关。
6 { }^{6} 6 生物代理研究了从单细胞到复杂生物体如何在其环境中有目的地行动。参见Kauffman和Clayton(2006),Bouvard (2009),以及Meincke (2018)。
7 { }^{7} 7 认知代理专注于代理如何收集、评估和根据知识采取行动,从科学家进行研究到学生管理学习。参见Damṣa et al. (2010),Elgin (2013),和Sosa (2013)。
8 { }^{8} 8 群体代理探索了集体——从蚂蚁群落到公司董事会——如何作为一个连贯的代理行动,尽管它们是由个体演员组成的。参见Nickel (1997),List和Pettit, P. (2011),和Tollefsen (2015)。
9 { }^{9} 9 共享代理考察了个体如何协调以实现共同目标,如两人搬家具到大型管弦乐队表演。参见Bratman (2014),Shapiro (2014),Le Besnerais et al. (2024)。
例如,代理需要理性思考和基于理性的意向行动的能力这一观念特别有影响力,影响了AI研究人员如Russell(1997)和Rao & Wooldridge(1999)的工作,他们试图建立能够根据环境反馈推理目标和行动的AI系统。事实上,Russell & Norvig的主要教科书《人工智能:现代方法》的第一版,最初出版于1995年,封面显著展示了“智能代理”一词,突显了早期对代理作为AI基本概念的认可。 10 { }^{10} 10

近年来,AI代理的概念沿着几条不同的发展路径进一步演变。强化学习(RL)继续关注通过环境交互和反馈学习最优行为的自主AI代理(Sutton and Barto, 1998);这些代理在游戏环境中取得了显著成功(Silver et al., 2017; Brown and Sandholm, 2019; Meta Fundamental AI Research Team (FAIR) et al., 2022)。 11 { }^{11} 11 基于代理的建模和基于模拟的方法强调了在构建更强大的人工系统时社会互动和涌现的重要性(Wooldridge, 1999)。近期工作还探索了能够进行有限形式的元学习或学习如何学习以及自我修改的代理(Lake et al., 2017, Park et al., 2023)。最后,在推理领域取得了进展

10 { }^{10} 10 Franklin & Graesser (1997) 的开创性工作确立了AI代理与传统软件程序之间的根本区别,为AI研究中代理性质的关键辩论铺平了道路。他们的自主代理分类提供了早期关于反应程序与真正人工代理核心特征区别的描述——例如独立目标追求、环境响应和时间连续性。这一理论基础与AI系统社会代理的研究同时发展。例如,Elliott & Brzezinski (1998) 研究了自主代理如何在社会环境中运作,开发出能够进行社会互动的合成角色。Nass 及其同事(1994)的研究建立了“计算机作为社会行为者”范式,证明人类自然会将社会特征归因于计算代理,并按照社会规则和期望与其互动。这项基于人类因素和人机交互研究的调查表明,人们即使在有意识地意识到其非人类性质的情况下,仍会将人工代理视为社会实体并与之互动。这些见解影响了教育代理的发展(Payr, 2003),其中人工导师和学习伙伴利用社会代理来提高教育成果。
11 { }^{11} 11 强化学习(RL)范式提供了一个框架,用以理解代理如何通过互动来实现目标(Sutton and Barto, 1998)。在此范式中,学习者——即代理——通过观察、行动和奖励的循环与环境互动。他们将“强化学习问题”定义为“通过互动学习做什么——如何将情境映射到行动——以便最大化数值奖励信号”(Sutton & Barto, 1998, p.1)。核心上,RL 将目标导向学习形式化为目标函数——代理旨在实现的数学表达,通常表示为随时间累积奖励的最大化。RL 代理通过与环境互动进行学习。它使用传感器感知环境状态,并通过执行器在定义的状态-动作空间内采取行动。环境提供反馈,使代理能够学习如何实现其目标。状态-动作空间的复杂性从根本上决定了学习问题的难度。在某些情况下,代理的目标函数并未明确定义,而是必须通过逆向强化学习等技术推断出来,这些技术通过观察行为重建奖励函数(Ng and Russell, 2000)。这种方法对于理解和复制隐含而非明确陈述目标的复杂行为特别有价值,允许对代理目标和决策过程进行更细致的建模。
推理领域,Zelikman等人(2022)证明语言模型可以通过迭代自我修正和在成功生成的推理路径上微调来提高这一能力。将推理协议纳入其中是许多近期取得进展的模型的核心,例如能够“思考”的模型,如Claude 3.5(Anthropic,2024b)、Gemini 2.5(Kavukcuoglu,2025)和OpenAI的o1模型(Jaech,2024)。
然而,值得询问的是:什么统一了这些不同的AI代理账户?在哪些维度——以及跨越哪些特征——这些不同的概念结合或分离?下表便于比较在AI和机器学习文献中找到的七个关键账户。

D.1: Russell & Norvig (1995)“任何可以被视为通过传感器感知其环境并通过效应器对环境采取行动的事物都是一个代理。”
D.2: Franklin & Graesser (1997)“自主代理是一个位于并部分属于某个环境的系统,它感知该环境并在一段时间内追求自身议程对其进行行动,从而影响其未来的感知。”
D.3:
Wooldridge
(1999)
“代理只是能够在某些环境中进行自主行动以满足其设计目标的计算机系统。代理通常会感知其环境(对于部分处于现实世界的代理来说是物理传感器,对于软件代理来说是软件传感器),并且有一系列可以执行以修改环境的动作可用,这些动作的执行可能看起来是非确定性的响应。”
D.4: Park et al. (2023)“生成代理[是]模拟可信人类行为的计算软件代理。生成代理醒来、做早餐、去上班;艺术家画画,作家写作;他们形成意见,注意到彼此并发起对话;他们记住过去的日子并计划第二天。”
D.5: Huang et al., (2024)“自主代理被公认为能够通过感知环境、规划和执行动作来完成特定任务的智能实体。”
D.6:
Masterman et al. (2024)
“AI代理是能够通过多轮迭代规划和采取行动以执行目标的语言模型驱动实体。AI代理架构要么由单一代理组成,要么由多个代理合作解决问题……[…] 研究社区已尝试构建基于自主代理的系统。”
D.7: Shavit et
al. (2023)
“代理AI系统的特点是在长时间内采取一致贡献于实现目标的行动,而无需预先指定其行为。”
:–:–

表1. 来自计算机科学的AI代理七个关键定义

在接下来的部分中,我们确定这些账户的共同点、差异点、优点和缺点,剖析我们认为AI代理的四个核心构成属性——自主性、效能、目标复杂性和通用性——并使用这些属性为不同类型的AI代理构建“代理画像”:Alpha Go、Waymo自动驾驶车辆、ChatGPT 3.5(独立聊天完成)和Claude Sonnet 3.5(带有工具使用)。

3. 自主性

自主性是所有AI代理定义中的关键属性。在各种定义中,研究人员反复强调AI系统的自主“行动”(D.1, D.3, D.7)。其他账户则聚焦于“自主代理”(D.2, D.5, D.6)或自主行为,例如在没有监督的情况下形成意见(D.4)。

从哲学角度来看,自主性可以通过多种方式理解,包括作为消极自由——理解为摆脱某些外部约束的自由——和积极自由——理解为无需协助追求目标的能力(Berlin, 1969)。自主性有时也与代理能够采取的行动范围或“自由度”相关联(Dennett, 2003)。在AI代理的背景下,代理最好被理解为在没有外部指导或控制的情况下执行行动的能力。这一描述捕捉了AI代理的独特之处:它们可以独立确定并执行一系列行动(指向特定目标)而无需逐步指导。在大多数情况下,相关的外部指导或控制来自由单个或多个人类组成的主体,尽管在某些情况下,它也可能来自另一个AI系统或控制机制。
尽管在各种AI代理定义中都存在对自主性的共同关注,但整个领域缺乏一种标准化的方式来分类或测量AI代理所具有的自主程度。在AI代理治理的背景下,自主水平很重要,因为它们有助于确定在何时何地需要不同类型的监督机制——例如,区分仅执行预定义工作流的AI代理(可能需要最少监督)与独立行动的AI代理(可能需要更严格的安全验证和监控协议)。如果没有这样的分级,治理框架可能会对定性不同的AI代理应用相同的标准,从而造成不必要的障碍或危险的监督漏洞。
幸运的是,自动驾驶车辆的自主性概念已被通过分类尺度建模(Vagia 等人,2016;汽车工程师协会,2021)。 12 { }^{12} 12 我们相信

12 { }^{12} 12 汽车工程师协会建立了一个分类自动驾驶车辆的框架,定义了六个驾驶自动化级别:Level 0(无驾驶自动化),人类驾驶员执行所有驾驶任务;Level 1(驾驶员辅助),车辆具有单一的
自动驾驶系统用于驾驶员辅助;Level 2(部分驾驶自动化),车辆具有组合的自动功能,但驾驶员必须保持专注;Level 3(有条件驾驶自动化),车辆可以在某些条件下处理所有驾驶方面,但驾驶员必须随时准备接管;Level 4(高度驾驶自动化),在特定条件下,车辆执行所有驾驶功能无需驾驶员干预;Level 5(完全驾驶自动化),在所有条件下,车辆执行所有驾驶功能无需驾驶员。
这个规模可以被有用得改编用来刻画AI代理的自主性。AI自主性的相关分级显示在表2:

A.0: 无自主性AI系统完全依赖主体才能行动,并只能按照主体指示的方式行动。
A.1: 受限自主性AI系统可以执行单一自动化任务。其他任务始终在主体直接监督下进行。
A.2: 部分自主性AI系统可以执行一系列自动化任务。主体必须保持参与,并随时准备接管。
A.3: 中级自主性AI系统可以独立完成大多数任务,但在关键决定上仍需依赖主体输入。
A.4: 高自主性AI系统在某些情况下可以独立完成所有任务,不过当这些条件不满足时(在异常行为发生时),主体仍然保持监督。
A.5: 完全自主性AI系统能够在没有监督或控制的情况下完成所有任务。

表2. AI代理的自主性级别

我们很快会更多谈论自主性对AI治理挑战的相关性。然而,此时此刻,我们想提请注意两件事。首先,AI自主性在AI安全方面尤为重要(Chan 等人,2023;Anwar 等人,2024;Hammond 等人,2025)。随着AI系统变得越来越自主,它们有可能解锁显著价值——减少为实现目标所需的人力和劳动。然而,这种收益是以成本为代价的:更高的自主性只能通过减少外部指导或监督的频率和强度来实现。其次,AI系统的完全自主性(A.5)不是一个理想目标——鉴于它意味着主体失去控制——除非系统的有效性完全
自动化系统包含,其能力稳健对齐,并且其能力显著受限(见4. 效能)。 13 { }^{13} 13

4. 效能

代理的第二个关键特征是其与环境互动并对其产生因果影响的能力。效能属性出现在每个AI代理定义中,这些定义描述了代理“感知环境并对其采取行动”(D.2)、“修改环境”(D.3)、“计划第二天”(D.4)、能够“感知其环境”(D.1)、“感知环境并执行行动”(D.5)、“采取行动以多次迭代执行目标”(D.6),以及“在长时间内采取行动”(D.7)。在这些背景下,效能指的是代理感知并因果影响其环境的能力:无法与环境互动并影响环境的实体不是代理。
然而,与自主性一样,如果我们要测量不同AI系统的因果影响,进而测量其代理性,就需要一套精细的区别。在只能推荐交易的AI财务顾问和可以自主执行数百万美元市场交易的AI财务顾问之间,或者在仅建议诊断供医生审查的医疗AI和通过连接医疗设备直接进行治疗的医疗AI之间,存在巨大差异。
代理的效能既取决于该代理在环境中的能力(即其对结果的控制水平),也取决于其能够运行的环境类型(即从人类生活和福祉的角度来看,该环境有多重要)。 14 { }^{14} 14
依次考虑这些要点,代理在环境中的能力因因果意义而异。 15 { }^{15} 15 环境内的影响相关分级包括以下内容:

13 { }^{13} 13 Mitchell等人(2025)反对开发完全自主的AI代理。
14 { }^{14} 14 在这种背景下,环境的重要性由其对人类最重视领域的冲击决定——换句话说,直接影响我们福祉、社会结构和有意义目标追求的世界方面。
15 { }^{15} 15 测量代理所展现控制水平的一种方法是通过“赋能”(Klyubin等人,2005)来理解,即代理通过其行动影响未来感官输入的能力。对于赋能指标,正如Klyubin等人所讨论的,影响变量 η \eta η的值在0到1之间,代表代理理论上影响其环境的能力。如果我们采用赋能作为AI代理因果影响的指标,较高的 η \eta η值表示通过代理行动对环境进行修改的更大潜力。对于仅能观察的代理,赋能接近零,因为它们无法修改环境。受限制影响的代理 ( 0 < η < 0.33 ) (0<\eta<0.33) (0<η<0.33)具有有限影响周围环境的能力。其行动空间受到限制,导致行动与未来感官状态之间存在正面但最小的通道容量。中级影响代理 ( 0.33 ≤ η < 0.67 ) (0.33 \leq \eta<0.67) (0.33η<0.67)能够制造显著的环境变化。这些代理在行动与感知之间建立了更强大的反馈环路,从而能够有效从环境响应中学习。全面影响代理 ( 0.67 ≤ η ≤ 1 ) (0.67 \leq \eta \leq 1) (0.67η1)能够在多个维度上显著重塑其环境。

仅观察AI代理只能观察其环境而不具备因果影响环境或对其作出任何修改的能力。
轻微影响AI代理对其环境有轻微影响,因为它拥有一系列有限的动作,或者其动作对环境只有有限影响。这些效果通常是局部的、暂时的,并且范围有限,只影响紧密约束领域内的特定参数,通常代表与环境基准状态相比的最小偏差。
中级影响当AI代理拥有一系列广泛的行动,或者其行动更具影响力时,它可以对其环境创造实质性和持久的变化。当其行动产生跨多个参数或系统的明显和持久变化,有时创造出自然不会产生的新平衡状态时,代理实现了中级影响。
全面影响AI代理能够在多个维度上显著重塑其环境,接近完全的环境控制。

表3. 因果影响级别

我们可以通过其状态持久性、给定空间中行动的潜在可逆性以及该空间中行动对其他行动者的后果来区分环境类型(Chalmers, 2022)。作为起点,区分完全模拟、中介或物理性质的环境是有帮助的:

模拟环境AI代理在严格定义的模拟空间内操作,这些空间具有受控边界和通常可重置的系统状态。
中介环境AI代理可以对非模拟的外部环境间接施加影响——通过人类中介。所有与物理现实的互动都需要人类解释、决策或行动,将AI代理的输出转化为现实世界的效果。
物理环境AI代理可以在不需要人类中介的情况下与物质空间中的有形对象互动。这些环境的特征是持久的状态变化,不能简单重置,可能导致不可逆的后果。AI代理还能够通过自身的机制直接操控或影响物理现实。

表4. 环境类型
通过结合这两个元素,可以创建一个环境影响矩阵,说明不同种类AI代理预期的效能变化。该矩阵结合了代理在环境中可能产生的因果影响程度与该环境的整体重要性。

模拟中介物理
仅观察E. 0E. 0E. 0
受限E. 1E. 2E. 3
中级E. 2E. 3E. 4
全面E. 3E. 4E. 5

表5. AI代理效能矩阵
该效能矩阵中的数值代表代理在部署AI代理时潜在影响和相应风险的增加级别。观察系统在所有环境中的0值反映了这些系统无法施加直接因果影响。随着系统在给定环境中获得更多因果能力,以及环境本身变得更加重要,因果影响也随之增加。例如,在物理环境中的受限AI代理(E.3)可能具有与在中介环境中具有中级控制能力的代理(也是E.3)相当的整体效能,这突显了环境背景如何放大即使是有限的能力。最高值(E.5)代表对物理环境具有全面控制的系统——如完全自主的人形或关键基础设施控制器。由于这些系统具有大规模、不可逆行动的潜力,因此需要最严格的监督。这种渐进式方法使治理能够与AI代理的操作能力和其操作域的性质成比例地扩展。然而,显然这些判断仅适用于事前和启发式方法:需要更精确地了解系统效能,以评估特定AI系统能够或不能如何影响我们的世界,包括特定部署部门的分析。 16 { }^{16} 16

在将代理效能与治理关注点联系起来方面,有两个因素突出。首先,环境效能与AI代理引入的风险水平之间存在明显的联系:环境效能是代理因果能力的粗略代理,理解为在重要领域中它能做什么的范围。其次,

16 { }^{16} 16 此处开发的效能矩阵只为比较不同能力-环境组合下的因果影响级别提供了初步指导。模拟、中介和物理领域之间的相对权重可能需要根据具体用例进行调整,额外维度——如行动速度、影响规模或可逆性阈值(Krakovna等人,2020)——可以增强矩阵的实用性。我们强调,这种方法需要通过涉及行业从业者、安全研究人员和治理机构的多方投入进一步完善。这种协作标准化工作应理想地产生评估工具和基准,以实现对AI代理因果影响潜力的一致评价。
鉴于效能很大程度上依赖于环境(还依赖于代理可访问的工具),同一基础模型代理的代理画像可能因所处环境和构建在其上的工具及支持而有很大差异。追踪和量化这些差异非常重要,如果我们希望AI安全协议能够追踪底层风险,从而避免过度负担低影响系统或对高影响系统开发不足的保障措施。评估和监控代理效能的能力还为我们提供了对AI系统整体能力的更完整画面,从而了解未来的可能影响。

5. 目标复杂性

目标复杂性和目标导向行为构成了第三个在每个领先的代理定义中常见的元素,作者指出代理可以:“通过效应器对环境采取行动”(D.1),从事“追求自身议程”(D.2),“满足其设计目标”(D.3),“计划第二天”(D.4),“计划和执行行动”(D.5),“在多次迭代中执行目标”(D.6),以及“在较长时间内实现目标”(D.7)。
尽管在概念上有共同点,但围绕这些目标的语义状态和结构组成存在更深的理论分歧,以及不同目标类型如何引发定性不同的代理能力表现(Jaeger等人,2024)。一些定义强调有能力的代理在长时段内进行规划的能力(D.7),而其他定义则关注满足任何类型的设计师指定目标(D.3),无论实现它所需的时间。我们认为,目标复杂性是这里的关键特征。简而言之,更有能力的AI代理可以形成或追求更复杂的目标。
在直观层面上,目标的复杂性很容易表述:关闭电灯开关比找到合适的终生伴侣或选择正确的国家经济利率要容易得多。这种复杂性也可以通过迷宫的比喻来理解,复杂性随着每一步走向最终目的地而增加,每个岔路口有多少选择,是否需要并行执行某些动作,以及迷宫有多大。 17   A { }^{17} \mathrm{~A} 17 A 简单的目标可能有一个明显、直截了当的路径,而复杂的目标则需要代理穿越许多棘手的决策点。然而,目标的复杂性也需要在其他方面延伸。有些目标是单一且易于理解的,而其他目标则必然分解为许多组成部分(类似于分支迷宫,有许多需要按特定顺序实现的中间目标)。此外,有些目标本身就是动态和适应性的,随着环境的变化而变化。更有能力的代理能够处理如此复杂的目 标。实际上,先进的代理可以将复杂目标分解为子目标,编排多步骤计划,并根据情况变化调整策略以实现目标。

17 { }^{17} 17 例如,AlphaGo面临的最大挑战之一是游戏中涉及的广阔动作空间,可能的变化超过宇宙中原子的数量(Silver等人,2017)。
理解目标复杂性的一个方法是通过分层规划(Sacerdoti, 1974; Georgievsk & Aiello, 2015)。这种方法通过将复杂目标组织成层次来管理它们。目标分解将复杂目标分解成一个结构化的层次结构,顶部是抽象目标,中间是越来越具体的子目标,底部是可以直接执行的动作。分层任务网络还可以通过父子关系来表示这种结构,其中高层任务分解为子任务,直到达到可以直接执行的基本任务。这种模型使用三个抽象级别:战略级别(处理广泛目标)、战术级别(管理中间子目标)和操作级别(执行特定动作序列)。分层规划方法允许AI系统通过在适当的抽象级别处理它们来应对不同复杂度的目标。

AI系统的复杂目标也可通过使用任务所需计划长度作为代理来近似。这涉及通过专门关注成功执行目标所需的步骤顺序和数量来测量复杂性。例如,可以通过比较AI系统执行的任务长度与人类通常设计或需要完成相似任务的长度来衡量AI系统目标的复杂性(Kwa等人,2025)。通过评估AI系统可以可靠执行的任务的计划长度(以典型人类努力为基准),我们可以获得其在现实世界中实现复杂目标能力的具体指标。

目标复杂性的另一个方面是多目标性:如果一个目标要求代理同时优化多个标准(例如,自主无人机必须在最大限度覆盖搜索区域的同时最小化能源使用并避免危险),那么复杂性更高,因为代理必须在权衡中找到平衡。在AI研究中,多目标优化问题被明确用于测试这种复杂性(Deb等人,2016)。目标复杂性还涉及代理必须满足的约束和条件。例如,需要在一定约束下实现的目标(“实现X而不让Y发生”)比不受约束就能实现的目标更复杂。 18 { }^{18} 18

基于这些基础,我们提出的复杂性分级如下:

18 { }^{18} 18 通过信息论视角操作化目标复杂性测量的一种方法是通过算法复杂性(Li和Vitányi,2008)来理解,它测量了目标及其成就条件的最短可能描述长度。也可以通过香农熵(Shannon,1948)来理解,它测量了可能状态目标的不可预测性。在这些账户中,更复杂的目标要么需要更长的描述,要么具有更高的信息熵。另一种选择是参考计算复杂性理论(Papadimitriou,1994),它提供了量化目标成就所需算法资源的指标,更复杂的目标需要更高的时间和空间资源来解决。最后,从系统理论角度看(Holland,2002;Miller和Page,2007),目标复杂性与相互作用组件的数量和它们关系的非线性相关。在这种观点下,复杂目标往往表现出无法从单独分析个别子目标预测的突现属性。

GC.0: 无目标不追求目标的实体不是代理。目标的缺失是一种基线状态。 19 { }^{19} 19
GC.1: 最小目标复杂性代理能够以相对直接的方式追求单一统一目标。 20 { }^{20} 20
GC.2: 低目标复杂性代理能够追求单一统一目标,但这涉及到更复杂的行动序列。
GC.3: 中等目标复杂性代理能够将复杂目标分解为子目标,并以相对直接的方式追求它们。 21 { }^{21} 21
GC.4: 高目标复杂性代理能够将复杂目标分解为许多不同的子目标,其中成功依赖于平衡和安排子目标,这些子目标本身可能很难实现。 22 { }^{22} 22

19 { }^{19} 19 从柯尔莫哥洛夫复杂性角度来看,这种状态对应于最小算法信息含量:不存在可编码的目的性行为的可压缩模式。从信息论角度来看,"目标系统"的描述长度实际上是零,因为不需要指定任何目的性行为模式。
20 { }^{20} 20 在计算复杂性理论中,GC.1目标通常对应于P复杂性类中的问题,这些问题可以使用多项式时间的确定性算法识别解决方案。所需的计算空间仍然较小,因为代理不需要维护复杂的状态表示或广泛决策树。系统理论通过其特征简单的反馈回路识别这些目标,具有最小的跨组件交互,并倾向于表现出高度可预测和确定性的响应模式。
21 { }^{21} 21 计算上,这些目标通常对应于NP复杂性类中的问题。代理必须探索大幅扩展的解空间,其中包含多个潜在路径,通常需要启发式方法高效导航。从系统理论来看,这些目标表现出适度的反馈回路密度,具有非平凡的子组件交互,创建更微妙和更不可预测的行为模式,表现出初始的突现属性。
22 { }^{22} 22 计算上,这些目标通常对应于NP复杂性类,计划和执行阶段都需要非常高的计算资源。这一级别的问题通常涉及复杂的游戏理论考虑或递归动态规划方法以实现其目标。系统理论通过密集的互连反馈回路网络来描述这些目标,具有显著的跨尺度交互和依赖关系。

GC.5: 无限目标复杂性代理可以实现上述所有步骤。它还可以以无限方式生成自己的目标结构并解释未充分指定的目标。 23 { }^{23} 23

表6:AI代理的目标复杂性级别

从AI治理的角度来看,目标复杂性是整体代理能力的关键维度。结合通用性(见6. 通用性),能够处理更高目标复杂性的AI代理可以执行更复杂和有价值的任务,潜在地替代某些领域中的人类活动或劳动(Webb, 2019; Eloundou et al., 2024)。目标复杂性也很重要,因为它可以解锁之前无法实现的性能水平,例如AlphaGo或Starcraft中的超人表现,这随后产生级联效应,为这些系统的用户和非用户带来新的机会和风险(Schut et al., 2025)。

6. 通用性


通用性指的是AI代理在不同角色、上下文、认知任务或经济上有价值的任务中有效操作的能力。这从高度专业化的AI代理专注于特定任务到能够在不同领域之间切换的通用代理不等。尽管通用性不是我们调查的每个定义的显式特征,但AI系统表现出的通用程度长期以来一直是研究人员关注的焦点,特别是在关于高级AI系统(如人工通用智能(AGI))的讨论背景下(Legg and Hutter, 2007; Goertzel, 2014)。在这里,通用性描述了超越狭窄专业化向更广泛能力的进步,这种能力可以在多样化环境中和任务领域中发挥作用。

在较低的通用性水平上,我们可以找到那些能够“感知[其]环境……并将拥有一系列可以执行以修改环境的动作”(D.3)但可能仍受领域限制的代理。中等范围的通用性出现在代理能够“计划并采取行动以在多次迭代中执行目标”(D.6)时。同时,更高的通用性通常由那些行为“未被预先指定”的系统体现(D.7)。更具通用性的代理能够在多个领域内建立并追求自我设定的目标,而不仅仅是执行狭窄参数内的预定义任务。正如Park等人(2023)指出的那样,现在一个单一代理可以在虚拟环境中承担广泛的任务,包括“醒来、做早餐、去上班;……画画”(D.4)。
从理论角度来看,Marcus Hutter(2005)提出了对通用代理最雄心勃勃的描述之一:他提出了一种数学理论,用于集成所罗门诺夫归纳法与顺序决策理论的最优智能代理。

23 { }^{23} 23 计算上,这些能力对应于超出传统复杂性分类的问题,如不可判定问题。系统理论上,GC.4能力展现出多尺度上的突现特性,并具有自创生特性——目标系统不仅自我组织,还自我修改和生成。此类系统通过根本性重新制定目标来应对环境扰动,展现出复杂适应系统的基本韧性特征,正如Holland(2002)在其关于突现和适应性的综合框架中所述。
AIXI方法在四个关键方面体现了通用性:首先,通过普遍学习,允许候选代理识别任何可计算模式而不依赖于领域特定先验;其次,通过环境无关适应性,使代理能够在所有可计算环境中运行;第三,基于形式数学保证的跨任意领域的可证明最优决策;第四,通过提供在整个可计算问题空间中的性能正式定义通用性,基于普遍原则而非专门机制。然而,虽然AIXI提供了通用智能的严格数学理想,但它不可计算,主要作为理论基准而非实际实施的基础。
在更实用的一侧,Morris等人(2024)将通用性描述为“AI系统的功能广度,即AI系统达到目标性能阈值的任务范围”。这些作者区分了“狭窄”系统,它们是为明确定义的任务或有限任务集设计的,以及“通用”系统,这些系统能够处理广泛的认知任务,包括元认知能力,如学习新技能。在这种观点下,通用性和模型性能——相对于“熟练成年人”的能力进行基准测试——是通用人工智能代理的关键属性。 34 { }^{34} 34 然而,尽管这种分类法为衡量通用性提供了有价值的起点,它仅代表这一复杂问题的一种方法。对我们来说至关重要的是,通用性表现为不同程度,而不是二元属性。我们需要更多地了解AI代理在狭隘或通用方面的程度,以便合理预测其潜在影响。
基于这项工作,我们提出的通用性分级如下:

G.0: 零值在任何领域都没有应用或没有执行任务的能力。
G.1: 单一专长该代理可以掌握一项具体任务,例如单个游戏,但不能将其能力转移到甚至密切相关的领域。
G.2: 任务领域精通代理在一组密切相关任务中表现出色,例如玩棋盘游戏,这些任务共享共同结构和目标类型。

34 { }^{34} 34 Morris等人(2024)提出了一种考虑通用性和性能两个维度相互作用的分层分类法,支持对AI系统能力进行更细致的讨论。第0级代表非AI系统,而第1级(“新兴”)包括前沿语言模型,如ChatGPT4.5和Bard,它们表现出广泛但不一致的能力,相当于不具备技能的人类。更高层次的通用性——尚未实现的包括:第2级(“胜任”),要求在大多数任务中达到熟练成人50百分位的表现;第3级(“专家”),要求达到90百分位的表现;第4级(“大师”),要求达到99百分位的技能;和第5级(“超人”),要求超过所有人类的表现。该框架区分了在特定领域表现出色的窄AI系统(例如,“大师级窄AI”AlphaGo)和能够在多样领域达到规定表现阈值的真正通用系统。值得注意的是,在他们的账户中,2024年左右的AI系统仅达到“新兴AGI”分类。

G.3: 多任务领域精通代理可以在涉及不同认知能力的不同任务领域成功运作,例如,那些涉及语言、逻辑和创造性元素的任务。
G.4: 大多数任务领域精通代理可以在大多数人类认知任务领域成功运作。
G.5: 完全通用AI系统代理可以在所有领域完成整个套件的人类认知任务。

表7:AI代理的通用性级别
从政策和治理的角度来看,通用性与围绕AGI(Morris等人,2024)的定义、成就和影响的讨论紧密相关。它也与有关通用技术的相关讨论密切相关(Eloundou等人,2024)。在后一种背景下,单独的通用性不足以驱动广泛的社会变革:技术必须还展示随时间的改进、在经济中的普遍性和催生互补创新的能力。然而,越来越多的支持认为完全通用的AI系统很可能具备许多这些特征(Brynjolfsson和McAfee,2017;Crafts,2021)。

7. 代理画像

上述代理维度可以一起使用,为不同类型的AI代理构建“代理画像”。我们在下面通过绘制不同类型AI代理或原代理的代理画像来说明这种方法:(a) AlphaGo,(b) ChatGPT-3.5(独立聊天完成),© Claude Sonnet 3.5(带工具使用),和(d) Waymo自动驾驶车辆。

在以下图表中,红色矩形表示AlphaGo的代理画像,蓝色矩形代表GPT-3.5的代理画像,绿色矩形代表Claude 3.5 Sonnet的代理画像(启用工具使用),橙色矩形代表Waymo的代理画像。
img-0.jpeg

图1. AlphaGo的代理画像

AlphaGo是一个专门设计用于在模拟环境中玩围棋的AI代理(Silver等人,2017)。该系统通过学习专业围棋比赛和自我对弈来掌握复杂的围棋策略和位置评估。AlphaGo通过其在没有人为监督的情况下评估和执行围棋策略的能力展示了中级自主性(A.3)。然而,需要人为监督来开始和结束游戏、管理技术问题以及确保锦标赛协议合规性。AlphaGo对环境的影响较低(E.1),因为它仅在一个包含的模拟围棋游戏中运行。它进一步受到规则约束,只能影响游戏结果。该系统在这一有限领域内表现出完全掌握,但无法修改基本规则或环境结构。AlphaGo的目标复杂性较低(GC.2),因为它主要追求单一统一目标(最大化获胜概率),但这涉及复杂的行动序列。然而,它无法生成围棋游戏之外的目标。最后,AlphaGo的通用性较低(G.1),因为它仅在围棋这一单一领域内运行。
img-1.jpeg

图2. ChatGPT-3.5的代理画像
ChatGPT-3.5(独立聊天完成)是一种基于对话的语言模型,参与对话、处理语言任务和生成代码(OpenAI,2022)。ChatGPT-3.5因其在对话中独立生成响应和解决问题的能力而具有部分自主性(A.2)。然而,它需要人为输入来启动任务和验证输出,以及持续监督以确保事实准确性及适当内容生成。ChatGPT-3.5在中介环境中运作,具有中间级别的效能(E.2),能够通过其响应影响人类思维和决策。然而,该系统无法在线采取行动或直接影响物理世界,除非有人类干预。ChatGPT-3.5由于其能够对一系列复杂请求做出合理响应而具有中等目标复杂性(GC.3)。然而,当目标足够复杂时,它缺乏主动“思考”或“推理”能力,无法将复杂请求分解为子任务。ChatGPT-3.5具有相对较高的通用性水平(G.3),因为它可以完成跨越不同领域的任务组(如信息检索、建议、翻译等)。
img-2.jpeg

图3. Claude 3.5 Sonnet(带工具使用)的代理画像
Claude 3.5 Sonnet(带工具使用)是一种基于聊天的语言模型,能够执行一系列更高级任务,利用不同工具(如浏览器控制)和推理协议。它具有中级自主性(A.3),因为它能够在没有直接人类监督的情况下执行扩展动作序列。该模型还具有更高的效能水平(E.3),主要通过中介环境运作,但有能力通过计算机操作(如API调用)更直接地塑造世界。由于整合了更强的推理能力,Sonnet 3.5相比ChatGPT-3.5表现出更高的目标复杂性(GC.4)。它可以协调多个目标活动并执行更长的动作序列。最后,Sonnet 3.5继续表现出高通用性(G.3),能够有效跨多个领域工作,利用语言理解、计算机操作和分析能力。
img-3.jpeg

图4. Waymo的代理画像Waymo自动驾驶车辆

Waymo是一种配备了传感器、摄像头和计算系统的自动驾驶汽车,能够在无需人类操作的情况下导航道路。该系统整合了雷达和视觉数据以感知环境并实时做出驾驶决策。Waymo由于其在复杂现实世界环境中导航并实时做出关于路线规划、障碍物和安全决策的能力而具有非常显著的自主性水平(A.4)。尽管它保持远程监控和人为监督能力,但它能够处理意外情况(尽管在边缘情况下可能会请求人为协助)。Waymo还由于其与物质世界的直接物理交互而具有高水平的效能(E.4),从而在交通流量中创建持久状态变化。其行动具有有限或无逆转性,并对其他代理(包括乘客和其他车辆)产生真实后果。尽管受限于运输领域,它在此范围内仍具有显著影响。Waymo具有高目标复杂性(GC.4),追求安全到达目的地的主要目标,同时管理子目标,包括路线规划、障碍物规避和遵守交通规则。该系统主动平衡安全性、速度和乘客舒适度之间的竞争优先事项,同时适应实时环境变化。最后,Waymo由于其能够处理驾驶和导航领域所需的任务束而具有中等通用性水平(G.2)。

自主性效能目标
复杂性
通用性
AlphaGoA. 3E. 1GC. 2G. 1
ChatGPT-3.5A. 2E. 2GC. 3G. 3
Claude 3.5 Sons
(带工具使用)
A. 3E. 3GC. 4G. 3
WaymoA. 4E. 4GC. 4G. 2
:–:–:–:–:–

表8. 四种AI代理的代理映射。
这种绘制代理画像的过程产生了更多的见解。例如,代理画像是动态的:模型能力、架构或部署的变化可以显著改变技术的代理画像。

8. 治理AI代理

我们已经注意到AI代理有可能产生新的治理挑战。一种监管这些系统的途径是风险比例监管,重点在于实施与技术带来的预期风险水平相称的安全措施。这种方法是诸如欧盟AI法案(欧洲理事会,2024)和NIST风险管理框架(Tabassi,2023)等提案的核心,旨在提供一个平衡创新和风险缓解的分层监督系统。潜在假设是我们可以根据其风险概况充分分类AI系统并相应设计治理机制。
另一种途径,领域特定监管,认识到在负责任地部署AI系统时不同部门面临独特的挑战。例如,自动驾驶车辆必须优先考虑道路安全并导航复杂的物理环境,可能有生死攸关的后果;客户服务代理需要透明度和人为监督,以确保公平对待和准确代表组织政策;课堂助手可能需要更强的护栏以保护儿童免受有害内容侵害。领域特定方法可以用来补充和更新风险比例方法,因为它认识到在负责任地部署AI代理时不同领域面临的不同挑战。
然而,我们的分析表明,这两种方法虽然有价值,但都可以从对构成不同种类和类别AI代理的特性的更清晰分析中受益,支持针对这些系统解锁的机会和风险量身定制的监管和技术指导。
逐一考虑每个特性,AI系统表现出的自主性水平对于AI治理至关重要,因为它追踪了AI系统可以独立于人类操作的程度,几乎不需要监督或干预。不同的自主性水平引入了需要特别定制监控方法的独特风险。例如,自主性受限的代理(在我们的分析中归类为A.1)可能只需要简单的治理机制,例如定期审查,因为其行动在狭窄参数内可预测且受到严格限制。相比之下,高度自主的代理(A.4)可能需要连续监控并设置覆盖协议,因为它们能够在没有人为指导的情况下做出一系列自主决策。一般来说,监督机制的强度应直接对应于代理的独立性水平,更自主的系统需要额外的实时监督基础设施。
效能有助于确定系统带来的风险水平,从而提供关于适当安全协议和要求的信息。局限于完全包含或模拟环境中的代理可能只需要基本控制,因为其潜在危害通常限于该环境。然而,连接到物理世界的代理——如机器人、自动驾驶车辆或控制关键基础设施的系统——由于其造成实质危害的能力,需要全面的安全措施和影响评估。 25 { }^{25} 25 治理方法必须考虑到代理在其环境中能够产生的影响范围和大小,更强大和物理嵌入的系统,如仿人机器人,应受到更严格的监督。
代理表现出的目标复杂性可能是治理中最复杂的维度。代理目标的复杂性显著影响了对齐验证的可行性和方法。具有简单目标(GC.1)的代理可以通过简单的验证程序测试指令与输出之间的对应关系来评估。例如,可以通过比较其摘要与人类生成的基准来评估文档摘要代理。然而,具有复杂目标的代理可能追求人类难以直接评估的目标,要么因为它们涉及长期规划、情境依赖的适应性,或者在竞争价值之间进行复杂权衡。这样的代理需要先进的方法来确保对齐,例如可扩展的监督方法(Bowman,2022),利用分层评价结构,或机械解释性技术(Bereska,2024),试图使AI代理的内部推理过程更加透明和可分析。简而言之,随着目标复杂性的增加,验证变得更加具有挑战性,需要更复杂的工具和技术,可能还需要更密集的人工监督。
最后,AI代理的通用性以多种方式告知治理干预的范围和性质。通用性表示代理可以有效操作的领域和任务的广度。高度专业化的代理可能在狭窄领域内带来重大挑战,但不太可能在多个部门产生系统性影响。相比之下,能够在各种领域执行多样化任务的通用AI代理带来了独特的治理挑战,因为它们可能在系统边界之间传播风险或表现出在意外背景下应用时的意外行为(Kasirzadeh,2025)。因此,通用性有助于确定治理措施应该是特定于领域还是更广泛适用,涵盖互联的部署区域。这一维度对于理解AI的经济后果尤其相关,鉴于通用性和劳动力替代效应之间的假设联系(Frey和Osborne,2013;Webb 2019)。随着AI代理变得更加通用,其部署可能会取代更大比例的人类劳动力,引发超越传统监管边界的经济组织、财富分配和社会稳定问题。
关于AI代理能够显著重塑现有机构和社会实践的能力的讨论现在已经很普遍。然而,它们往往缺乏对代理行为的明确刻画、代理类型的区别以及具体的AI代理治理提案。为了解决这一差距,我们提出了一个初步框架,用于治理目的的AI代理刻画。然而,重要的是要注意,

25 { }^{25} 25 值得注意的是,在这种背景下,技术安全社区表达了对高度能力代理逃脱或规避涉及“封闭”代理或将AI代理的影响限制在单一虚拟世界中的各种安全协议的能力的担忧(Korbak等人,2025)。
代理画像并不是静态的。事实上,正在进行的模型开发——包括内部结构的变化、新功能的添加以及模型部署方式的变化——可以显著影响所考虑的代理类型,即使它们基于相同的基线模型。

例如,考虑将工具使用添加到基础模型中,如访问API或外部知识库。工具使用可以极大地提高效率,而对外部知识的访问可以通过允许代理更新其世界模型而不是局限于训练时产生的信息来增加目标复杂性。类似的阶段转变可能发生在向模型架构添加推理和记忆时:高级推理可能会显著增加自主性和目标复杂性,使代理能够执行更多任务并在没有人类指导的情况下克服某些障碍,而记忆通过使代理能够建模和执行涉及随时间持续的行动序列来增加目标复杂性。相反,许多大型语言模型只有情景记忆,这严重限制了它们追求长期目标的能力。最后,考虑现实世界部署或将AI代理集成到拥有数亿用户的服 务中。这些发展导致效能的急剧上升,并需要一种不同的治理框架,包括让能够采取世界行动的代理的新协议(Chan等人,2025)。这反过来又引发了一个复杂但重要的问题关于代理识别:什么时候一个代理变成了另一个代理?在什么点应该构建或修订一个代理画像? 26 { }^{26} 26 当涉及到实际决策时,似乎有必要对AI代理进行定期的部署特定重新评估。

向前推进,需要进一步的工作来一致地测量和操作化我们提出的AI代理维度。实际上,开发可测量指数的过程需要持续的跨学科合作,以确保指标得到充分激励、准确并且适用于各种AI架构和任务。我们已经提到了几个量化维度和变量的潜在途径:效能可以潜在地使用类似普遍赋能(Klyubin等人,2005;Salge等人,2014)的指标来衡量,这些指标评估代理对其环境的潜在影响,而目标复杂性可以使用层级规划文献中建立的方法(Sacerdoti,1974;Georgievsk & Aiello,2015)来形式化,以分析AI目标的结构和深度。然而,选择和验证每个代理维度的指标仍然是一个重大的任务。

为了应对AI代理提出的治理问题,我们需要更详细地了解其特性——不同种类的AI代理的独特之处。这里提出的框架旨在为针对不同AI代理的具体特性量身定制的治理机制、安全协议和对齐策略奠定基础。尽管在确定不同代理画像的度量标准和基准、开发评估不断演变能力的方法以及解决复杂的代理个体化问题方面仍然存在重大挑战,这里提出的多维视角为未来研究和政策发展提供了必要的支撑。培养对AI代理的更深理解对于负责任地引导其发展和

26 { }^{26} 26 我们注意到,这一挑战也在软件和模型许可领域遇到。
部署至关重要,确保其实现其转型潜力的同时,相关风险得以预见和精确应对。

致谢。我们要感谢David Abel、Tom Everitt、Fernando Diaz、Matija Franklin、Anna Harutyunyan、Seb Krier、Arianna Manzini、Andrew Smart以及Foundations of Cooperative AI Lab午餐系列参与者提供的宝贵反馈。Atoosa Kasirzadeh的研究得到了Schmidt Sciences的AI2050项目(资助号24-66924)的支持。部分研究是在Atoosa担任Alphabet访问教员期间进行的。

参考文献

Anthropic. 引入计算机使用,新的Claude 3.5 Sonnet和Claude 3.5 Haiku。Anthropic https://www.anthropic.com/news/3-5-models-and-computer-use (2024a).

Anthropic. Claude 3.5 Sonnet模型卡附录.
https://www-cdn.anthropic.com/fed9ec193a14b84131812372d8d5857f8f304c52/Model_Card_ Claude_3_Addendum.pdf (2024b).

Anwar, U. 等人。确保大型语言模型对齐和安全的基础挑战。预印本位于 https://doi.org/10.48550/arXiv.2404.09932 (2024).

Bereska, L. & Gavves, E. 用于AI安全的机制解释性——综述。预印本位于 https://doi.org/10.48550/arXiv. 2404.14082 (2024).

Berlin, I. 两种自由概念。《自由四篇论文》118-172页 (牛津大学出版社,牛津,1969).

Bowman, S. R. 等人。衡量大规模语言模型可扩展监督的进展。预印本位于 https://doi.org/10.48550/ARXIV.2211.03540 (2022).

Bouvard, V. 等人。人类致癌物评论—第二部分:生物因子。《柳叶刀肿瘤学》10期,321-322页 (2009).

Bratman, M. 共同代理:一种行动规划理论。 (牛津大学出版社,纽约,2014).

Brown, N. & Sandholm, T. 多玩家扑克的超人AI。《科学》365期,885-890页 (2019).

Open AI. 介绍ChatGPT。预印本位于 https://openai.com/index/chatgpt/ (2022).
Brynjolfsson, E. & McAfee, A. 人工智能的商业。《哈佛商业评论》 (2017).

Casper, S. 等人。AI代理指数。预印本位于 https://doi.org/10.48550/arXiv.2502.01635 (2025).

Chalmers, D. J. & Peacock, T. 虚拟世界及其哲学问题。 (Allen Lane, Penguin Books旗下品牌,伦敦,2022).

Chan, A. 等人。越来越具有代理性的算法系统带来的危害。2023 ACM公平性、问责制和透明度会议 651-666页 (ACM, 芝加哥,美国,2023). doi:10.1145/3593013.3594033.

Chan, A. 等人。AI代理的可见性。2024 ACM公平性、问责制和透明度会议 958-973页 (ACM, 里约热内卢巴西,2024). doi:10.1145/3630106.3658948.

Chan, A. 等人。AI代理的基础设施。预印本位于 https://doi.org/10.48550/arXiv.2501.10114 (2025).

欧洲理事会。法规 (EU) 2024/1689 欧洲议会和理事会条例 2024年6月13日 制定关于人工智能的协调规则 并修订法规 (EC) No 300/2008, (EU) No 167/2013, (EU) No 168/2013, (EU) 2018/858, (EU) 2018/1139 和 (EU) 2019/2144 以及指令 2014/90/EU, (EU) 2016/797 和 (EU) 2020/1828 (人工智能法案)。 (2024).
Crafts, N. 作为通用技术的人工智能:历史视角。《牛津经济政策评论》37 (2021).
Damşa, C. I., Kirschner, P. A., Andriessen, J. E. B., Erkens, G. & Sins, P. H. M. 共享认知代理:一项实证研究。《学习科学杂志》19期,143-186页 (2010).

Davidson, D. I. 行动者。代理、行动与理性 (eds. Binkley, R. W., Bronaugh, R. N. & Marras, A.) 1-37页 (多伦多大学出版社,1971). doi:10.3138/9781442656963-002.

Deb, K., Sindhya, K. & Hakanen, J. 多目标优化。决策科学 (eds. Sengupta, R., Gupta, A. & Dutta, J.) 145-184页 (CRC Press, Taylor & Francis Group, 佛罗里达州博卡拉顿 33487-2742, 2016). doi:10.1201/9781315183176-4.

Dennett, D. C. 自由的演化。 (Viking, 纽约, 2003).
Dretske, F. 解释行为:原因的世界中的理由。 (麻省理工学院出版社,1988). doi:10.7551/mitpress/2927.001.0001.

Dung, L. 理解人工代理。《哲学季刊》75期,450-472页 (2025).
Elgin, C. Z. 认知主体。《理论与教育研究》11期,135-152页 (2013).
Elliott, C. & Brzezinski, J. 自主代理作为合成角色。《人工智能杂志》19期, 13 − 13 13-13 1313页 (1998).

Eloundou, T., Manning, S., Mishkin, P. & Rock, D. GPT是GPTs:LLM的劳动市场影响潜力。《科学》384期,1306-1308页 (2024).

Feigenbaum, E. A. 人工智能的艺术:主题与案例研究。第五届国际人工智能联合会议论文集,第2卷 (马萨诸塞州剑桥:麻省理工学院,1977).

Frankfurt, H. G. 意志自由与人格概念。《哲学杂志》68期,5页 (1971).

Franklin, S. & Graesser, A. 这是一个代理,还是只是一个程序?自主代理的分类。见《智能代理III 代理理论、架构和语言》(eds. Müller, J. P., Wooldridge, M. J. & Jennings, N. R.) 第1193卷 21-35页 (Springer, 柏林,海德堡,1997).

Frey, C. B. & Osborne, M. A. 就业的未来:工作对计算机化的易感性如何?《技术预测与社会变迁》114期,254-280页 (2017).

Gabriel, I. 等人。高级AI助手的伦理。预印本位于 https://doi.org/10.48550/arXiv.2404.16244 (2024).

Georgievski, I. & Aiello, M. HTN规划:概述、比较及展望。《人工智能》222期,124-156页 (2015).

Ginet, C. 行动论。 (剑桥大学出版社,1990). doi:10.1017/CBO9781139173780.
Goertzel, B. 人工通用智能:概念、现状及未来前景。《人工通用智能期刊》5期,1-48页 (2014).

Goldman, A. I. 人类行动理论。 (Prentice-Hall, Englewood Cliffs, N.J, 1970).
Grossman, S. J., & Hart, O. D. 对委托-代理问题的分析。见保险经济学基础:经济学和金融读物,302-340页 (1992).
Hammond, L. 等人。高级AI的多代理风险。预印本位于 https://doi.org/10.48550/arXiv.2502.14143 (2025).

Holland, J. H. 复杂适应系统与自发涌现。见工业集群与复杂性 (eds. Curzio, A. Q. & Fortis, M.) 25-34页 (Physica-Verlag HD, 海德堡,2002). doi:10.1007/978-3-642-50007-7_3.

Huang, X. 等人。理解LLM代理的规划:综述。预印本位于 https://doi.org/10.48550/ARXIV.2402.02716 (2024).

Hutter, M. 普遍人工智能:基于算法概率的序贯决策。 (Springer-Verlag, 柏林,海德堡,2005).

Jaeger, J., Riedl, A., Djedovic, A., Vervaeke, J. & Walsh, D. 自然化相关性实现:为什么代理和认知本质上不是计算性的。《心理学前沿》15期,1362658页 (2024).

Kasirzadeh, A. 两类AI生存风险:决定性与累积性。《哲学研究》 (2025). https://doi.org/10.1007/s11098-025-02301-3

Kauffman, S. & Clayton, P. 关于涌现、代理和组织。《生物学与哲学》21期,501-521页 (2006).

Kavukcuoglu, K. Gemini 2.5:我们最智能的AI模型。Google https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025 / (2025)

Kirk, H. R., Gabriel, I., Summerfield, C., Vidgen, B. & Hale, S. A. 为什么人类-AI关系需要社会情感对齐。预印本位于 https://doi.org/10.48550/arXiv.2502.02528 (2025).

Klyubin, A. S., Polani, D. & Nehaniv, C. L. 赋权:一种通用的以代理为中心的控制衡量方法。见2005年IEEE进化计算大会论文集 1 128 − 135 128-135 128135 (2005).

Kolt, N. 治理AI代理。预印本位于 https://doi.org/10.48550/arXiv.2501.07913 (2025).
Korbak, T., Balesni, M., Shlegeris, B. 和 Irving, G., 2025. 如何评估LLM代理的控制措施?从今天到超级智能的轨迹。arXiv预印本 arXiv:2504.05259.

Krakovna, V., Laurent O., Ngo, R., Martic, M., and Legg, S. 避免副作用通过考虑未来任务。神经信息处理系统进展第33卷,19064-19074页 (2020).

Kwa, T 等人… 测量AI完成长任务的能力。预印本位于 https://arxiv.org/abs/2503.14499 (2025).

Lake, B. M., Ullman, T. D., Tenenbaum, J. B. & Gershman, S. J. 构建像人一样学习和思考的机器。《行为与脑科学》40期,e253 (2017).

Le Besnerais, A., Moore, J. W., Berberian, B. & Grynszpan, O. 联合行动中的主体感:we-主体感的批判性回顾。《心理学前沿》15期,1331084 (2024).

Legg, S. & Hutter, M. 普遍智能:机器智能的定义。《心灵与机器》17期,391-444页 (2007).
Li, M. & Vitányi, P. 柯尔莫哥洛夫复杂性及其应用导论。 (Springer International Publishing, Cham, 2019). doi:10.1007/978-3-030-11298-1.

List, C. & Pettit, P. 群体代理:公司代理的可能性、设计与地位。 (牛津大学出版社,牛津;纽约,2011).

Lowe, E. J. 个人代理:心智与行动的形而上学。 (牛津大学出版社,牛津,2008). doi:10.1093/acprof:oso/9780199217144.001.0001.

Masterman, T., Besen, S., Sawtell, M. & Chao, A. 新兴AI代理架构用于推理、规划和工具调用:综述。预印本位于 https://doi.org/10.48550/ARXIV.2404.11584 (2024).

Meincke, A. S. 生物代理与人工代理的可能性。见《科学哲学》(eds. Christian, A., Hommen, D., Retzlaff, N. & Schurz, G.) 9, 65-93页 (Springer International Publishing, Cham, 2018).

Meta Fundamental AI Research外交团队 (FAIR) † \dagger 等人。通过结合语言模型与战略推理实现外交游戏的人类水平玩法。《科学》378期, 1067 − 1074 1067-1074 10671074 (2022).

Mitchell, M., Ghosh, A., Luccioni, A. S. & Pistilli, G. 不应开发完全自主的AI代理。预印本位于 https://doi.org/10.48550/ARXIV.2502.02649 (2025).

Morris, M. R. 等人。通过操作化路径实现AGI的AGI级别。 (2023) doi:10.48550/ARXIV.2311.02462.

Nass, C., Steuer, J. & Tauber, E. R. 计算机是社交演员。SIGCHI人机交互会议论文集 72-78页 (ACM, 波士顿麻省美国,1994). doi:10.1145/191666.19170

Ng, A. & Russell, S. 逆向强化学习算法。第十七届国际机器学习会议论文集(2000)。

Nickel, J. W. 群体代理与群体权利。《族群与群体权利》(纽约大学出版社,纽约,1997)。

O’Connor, T. 个人与原因:自由意志的形而上学。(牛津大学出版社,纽约牛津,2002)。

OpenAI 等人. OpenAI o1 系统卡片。预印本位于 https://doi.org/10.48550/arXiv.2412.16720 (2024).

OpenAI 等人. GPT-4 技术报告。预印本位于 https://doi.org/10.48550/arXiv.2303.08774 (2024).

Park, J. S. 等人. 生成型代理:人类行为的互动模拟体。预印本位于 https://doi.org/10.48550/ARXIV.2304.03442 (2023).

Payr, S. 虚拟大学的教职员工:教育代理概述。《应用人工智能》17期,1-19页(2003)。

Rao, A. S. & Wooldridge, M. 理性代理的基础。《理性代理的基础》(eds. Wooldridge, M. & Rao, A.)1-10页(Springer Netherlands, Dordrecht, 1999)。doi:10.1007/978-94-015-9204-8_1.

Russell, S. J. 理性和智能。《人工智能》94期,57-77页(1997)。
Russell, S. J. & Norvig, P. 《人工智能:一种现代方法》。(Prentice-Hall, Englewood Cliffs, New Jersey, 1995)。

Sacerdoti, E. D. 在抽象空间层次结构中进行规划。《人工智能》5期, 115 − 135 115-135 115135(1974)。

Salge, C., Glackin, C., & Polani, D. (2014). 赋权——一个介绍。《引导自组织:开端》,67-114。

Salesforce. Salesforce 推出 Agentforce——AI 的真正意义。Salesforce https://www.salesforce.com/uk/news/press-releases/2024/09/12/agentforce-announcement/ (2024).

Shavit, Y., Agarwal, S., Brundage, M., Adler, S., O’Keefe, C., Campbell, R., Lee, T., Mishkin, P., Eloundou, T., Hickey, A. 和 Slama, K… 治理代理型 AI 系统的实践。研究论文,OpenAI。预印本位于
https://cdn.openai.com/papers/practices-for-governing-agentic-ai-systems.pdf (2023)
Shannon, C. E. (1948). 通信的数学理论。贝尔系统技术期刊,27(3), 379-423.

Shapiro, S. J. 大规模共享代理。理性与社会代理(eds. Vargas, M. & Yaffe, G.)257-293页(牛津大学出版社,2014)。doi:10.1093/acprof:oso/9780199794515.003.0011.

Schut, L. 等人. 弥补人类-AI知识差距:AlphaZero 中的概念发现与转移。预印本位于 https://doi.org/10.48550/ARXIV.2310.16410 (2023).

Silver, D. 等人. 不依赖人类知识掌握围棋游戏。《自然》550期,354-359页(2017)。

汽车工程师协会. 驾驶自动化系统相关术语的分类和定义。SAE
https://www.sae.org/standards/content/j3016_202104 (2021).
Sosa, E. 认知主体:哲学杂志 110期,585-605页(2013).
Spataro, J. 新自主代理以前所未有的方式扩展您的团队。微软官方博客
https://blogs.microsoft.com/blog/2024/10/21/new-autonomous-agents-scale-your-team-like-ne-ver-before/ (2024).

Sumers, T. R., Yao, S., Narasimhan, K. & Griffiths, T. L. 语言代理的认知架构。预印本位于 https://doi.org/10.48550/arXiv.2309.02427 (2023).

Sutton, R. S. & Barto, A. 《强化学习:导论》。(麻省理工学院出版社,剑桥,马萨诸塞州,1998年)。

Tabassi, E. 人工智能风险管理框架(AI RMF 1.0)。http://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf (2023) doi:10.6028/NIST.AI.100-1.

Taylor, C. 什么是人类代理?《自我:心理与哲学问题》103-135页(Blackwell, 牛津,1977)。

Tollefsen, D. 群体作为代理。(Polity, 马尔登,马萨诸塞州,2015)。
Uuk, R. 等人. 来自通用AI的系统性风险分类法。预印本位于 https://doi.org/10.48550/arXiv.2412.07780 (2024).
Vagia, M., Transeth, A. A. & Fjerdingen, S. A. 关于自动化水平的文献综述:这些年提出了哪些不同的分类法?《应用人体工程学》53期,190-202页(2016)。

Webb, M. 人工智能对劳动力市场的影响。SSRN学术论文位于 https://doi.org/10.2139/ssrn.3482150 (2019).

Wooldridge, M. 智能代理。《多智能体系统:分布式人工智能的现代方法》(MIT出版社,剑桥,马萨诸塞州,1999)。

Yee, L., Chui, M. & Roberts, R. 为什么AI代理是生成式AI的下一个前沿 | 麦肯锡.
https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/why-agents-are-the-next-frontier-of-generative-ai/ (2024).

Zelikman, E., Wu, Y., Mu, J. & Goodman, N. D. STaR:用推理引导的自训练推理器。第36届神经信息处理系统国际会议论文集(Curran Associates Inc., 红钩,纽约,美国,2022)。

参考论文:https://arxiv.org/pdf/2504.21848

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值