Agent AI: Surveying the Horizons of Multimodal Interaction
代理人工智能:多模态交互视野的综述
Zane Durante1†, Qiuyuan Huang2‡∗, Naoki Wake2∗,
Ran Gong3†, Jae Sung Park4†, Bidipta Sarkar1†, Rohan Taori1†, Yusuke Noda5,
Demetri Terzopoulos3, Yejin Choi4, Katsushi Ikeuchi2, Hoi Vo5, Li Fei-Fei1, Jianfeng Gao2
1Stanford University; 2Microsoft Research, Redmond;
3University of California, Los Angeles; 4University of Washington; 5Microsoft GamingEqual Contribution. ‡ Project Lead. † Work done while interning at Microsoft Research, Redmond.
摘要
多模态人工智能系统很可能成为我们日常生活中的普遍存在。 使这些系统更具交互性的一个有希望的方法是将它们体现为物理和虚拟环境中的代理。 目前,系统利用现有的基础模型作为创建具身代理的基本构建块。 将代理嵌入到此类环境中,有利于模型处理和解释视觉和上下文数据的能力,这对创建更复杂且上下文感知的人工智能系统至关重要。 例如,能够感知用户动作、人类行为、环境物体、音频表达和场景集体情感的系统,可以用于告知和指导代理在给定环境中的响应。 为了加速基于代理的多模态智能研究,我们将“代理人工智能”定义为一类能够感知视觉刺激、语言输入和其他环境基础数据的交互系统,并能够产生有意义的具身行动。 特别地,我们探索旨在通过整合外部知识、多感官输入和人类反馈来改进基于下一个具身动作预测的代理的系统。 我们认为,通过在有基础的环境中开发代理人工智能系统,还可以减轻大型基础模型的幻觉及其产生环境不正确输出的趋势。 新兴的代理人工智能领域涵盖了多模态交互的更广泛的具身和代理方面。 除了在物理世界中行动和交互的代理之外,我们设想一个未来,人们可以轻松创建任何虚拟现实或模拟场景,并与具身于虚拟环境中的代理进行交互。
图 1: 能够感知和行动于不同领域和应用的代理人工智能系统的概述。 代理人工智能正在成为通向通用人工智能 (AGI) 的一条有希望的途径。 代理人工智能训练已证明在物理世界中进行多模态理解的能力。 它通过利用生成式 AI 以及多个独立的数据源,提供了一个与现实无关的训练框架。 在跨现实数据上进行训练时,针对代理和行动相关任务进行训练的大型基础模型可以应用于物理和虚拟世界。 我们介绍了一个 Agent AI 系统的总体概述,该系统可以在许多不同的领域和应用中感知和行动,可能作为使用代理范式实现 AGI 的途径。
目录
- 1介绍
- 2智能体 AI 集成
- 3智能体 AI 范式
- 4智能体人工智能学习
- 5智能体人工智能分类
- 6代理 AI 应用任务
- 7跨模态、跨域和跨现实的代理 AI
- 8代理 AI 的持续改进和自我完善
- 9智能体数据集和排行榜
- 10更广泛的影响声明
- 11伦理考量
- 12多元化声明
- A GPT-4V 智能体提示详细信息
- B GPT-4V 用于尖端技术
- C GPT-4V 用于微软飞行模拟器
- D GPT-4V 用于刺客信条:奥德赛
- E GPT-4V 用于战争机器4
- F GPT-4V 用于星空
1引言
1.1动机
历史上,人工智能系统在 1956 年的达特茅斯会议上被定义为能够从环境中收集信息并以有用方式与环境交互的人工生命形式。 受此定义的启发,明斯基的麻省理工学院团队在 1970 年构建了一个名为“复制演示”的机器人系统,该系统观察“积木世界”场景并成功地重建了观察到的多面体积木结构。 该系统包含观察、规划和操作模块,表明这些子问题中的每一个都极具挑战性,需要进一步研究。 AI 领域分裂成专门的子领域,这些子领域在很大程度上独立地取得了巨大进展,解决了这些问题和其他问题,但过度简化模糊了 AI 研究的总体目标。
为了超越现状,有必要回到以亚里士多德整体论为动力的 AI 基础。 幸运的是,大型语言模型 (LLM) 和视觉语言模型 (VLM) 的近期革命使得创建符合整体理想的新型 AI 智能体成为可能。 利用这一机会,本文探讨了将语言能力、视觉认知、上下文记忆、直觉推理和适应性融合在一起的模型。 它探索了使用 LLM 和 VLM 完成这种整体整合的潜力。 在我们的探索中,我们还重新审视了基于亚里士多德最终目的的系统设计,即目的论上的“系统存在的原因”,这可能在之前的 AI 开发回合中被忽视了。
随着强大的预训练 LLM 和 VLM 的出现,自然语言处理和计算机视觉领域迎来了复兴。 LLM 现在展现出令人印象深刻的能力来破译现实世界语言数据的细微差别,通常实现与人类专业知识相当甚至超越人类专业知识的能力 OpenAI (2023)。 最近,研究人员表明,LLM 可以扩展为在各种环境中充当 智能体,当与特定领域知识和模块配对时,执行复杂的动作和任务 Xi et al. (2023)。 这些场景的特点是复杂的推理,对智能体角色及其环境的理解,以及多步骤规划,测试了智能体在其环境约束内做出高度细微和复杂的决策的能力 Wu et al. (2023); Meta Fundamental AI Research Diplomacy Team et al.(2022)Meta Fundamental AI Research (FAIR) Diplomacy Team, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR)。
在这些初步努力的基础上,AI 社区正处在一个重大的范式转变的边缘,从创建用于被动、结构化任务的 AI 模型转变为能够在多样化和复杂的环境中承担动态、代理角色的模型。 在这种情况下,本文调查了使用 LLM 和 VLM 作为智能体的巨大潜力,重点关注具有语言能力、视觉认知、上下文记忆、直觉推理和适应性融合的模型。 利用 LLM 和 VLM 作为智能体,尤其是在游戏、机器人和医疗保健等领域,不仅承诺为最先进的 AI 系统提供一个严格的评估平台,而且预示着以智能体为中心的 AI 将对社会和行业产生的变革性影响。 当得到充分利用时,代理模型可以重新定义人类体验并提升运营标准。 这些模型带来的全面自动化潜力预示着各行各业和社会经济动态的巨大转变。 这种进步将与多方面的领导者榜单交织在一起,不仅是技术上的,也是伦理上的,我们将在第 11 节中详细说明。 我们深入研究了这些代理人工智能子领域的重叠区域,并在图 1 中说明了它们之间的相互联系。
1.2背景
我们现在将介绍支持代理人工智能的概念、理论背景和现代实现的相关研究论文。
大型基础模型:
LLM 和 VLM 一直在推动开发通用智能机器的努力 (Bubeck 等人,2023;Mirchandani 等人,2023)。 尽管它们使用大型文本语料库进行训练,但它们卓越的解决问题的能力并不局限于规范的语言处理领域。 LLM 可能能够处理以前被认为是人类专家或特定领域算法专有的复杂任务,从数学推理 (Imani 等人,2023;Wei 等人,2022;Zhu 等人,2022) 到回答专业法律问题 (Blair-Stanek 等人,2023;Choi 等人,2023;Nay,2022)。 最近的研究表明,可以使用 LLM 为机器人和游戏 AI 生成复杂的计划 (Liang 等人,2022;Wang 等人,2023a,b;Yao 等人,2023a;Huang 等人,2023a),标志着 LLM 作为通用智能代理的重要里程碑。
具身人工智能:
一些作品利用 LLM 来执行任务规划 (Huang 等人,2022a;Wang 等人,2023b;Yao 等人,2023a;Li 等人,2023a),特别是 LLM 的 WWW 规模领域知识和新出现的零样本具身能力,以执行复杂的任务规划和推理。 最近的机器人研究也利用 LLM 来执行任务规划 (Ahn 等人,2022a;Huang 等人,2022b;Liang 等人,2022),通过将自然语言指令分解为一系列子任务,无论是自然语言形式还是 Python 代码,然后使用低级控制器执行这些子任务。 此外,它们还整合了环境反馈来提高任务性能 (Huang 等人,2022b),(Liang 等人,2022),(Wang 等人,2023a),以及 (Ikeuchi 等人,2023)。
交互式学习:
为交互式学习而设计的 AI 代理使用机器学习技术和用户交互的组合来运行。 最初,AI 代理在大型数据集上进行训练。 此数据集包含各种类型的信息,具体取决于代理的预期功能。 例如,为语言任务设计的 AI 将在海量文本数据语料库上进行训练。 训练涉及使用机器学习算法,其中可能包括神经网络等深度学习模型。 这些训练模型使 AI 能够识别模式,做出预测并根据其接受训练的数据生成响应。 AI 代理还可以从与用户的实时交互中学习。 此交互式学习可以通过多种方式进行:1) 基于反馈的学习:AI 根据直接的用户反馈调整其响应 Li 等人 (2023b);Yu 等人 (2023a);Parakh 等人 (2023);Zha 等人 (2023);Wake 等人 (2023a, b, c)。 例如,如果用户更正 AI 的响应,AI 可以使用此信息来改进未来的响应 Zha 等人 (2023);Liu 等人 (2023a)。 2) 观察式学习:AI 观察用户交互并隐式学习。 例如,如果用户经常问类似的问题或以特定方式与 AI 交互,AI 可能会调整其响应以更好地适应这些模式。 它允许 AI 代理理解和处理人类语言、多模式设置,解释跨现实上下文并生成人类用户的响应。 随着时间的推移,随着更多用户交互和反馈,AI 代理的性能通常会持续提高。 此过程通常由确保 AI 正确学习且不会产生偏差或错误模式的人类操作员或开发人员监督。
1.3概述
多模态代理 AI (MAA) 是一系列系统,这些系统根据对多模态感官输入的理解,在给定环境中生成有效的动作。 随着大型语言模型 (LLM) 和视觉语言模型 (VLM) 的出现,许多 MAA 系统已在从基础研究到应用的各个领域被提出。 虽然这些研究领域通过与每个领域(例如,视觉问答和视觉语言导航)的传统技术相结合而快速发展,但它们共享共同的兴趣,例如数据收集、基准测试和伦理观点。 在本文中,我们重点关注 MAA 的一些代表性研究领域,即多模态、游戏(VR/AR/MR)、机器人和医疗保健,我们的目标是提供有关这些领域中讨论的共同关注点的全面知识。 结果,我们希望了解 MAA 的基本原理,并获得见解以进一步推进其研究。 具体的学习成果包括:
- •
MAA 概述:深入研究其原理及其在当代应用中的作用,为研究人员提供对其重要性和用途的透彻理解。
- •
方法论:通过游戏、机器人和医疗保健领域的案例研究,详细说明 LLM 和 VLM 如何增强 MAA。
- •
性能评估:通过相关数据集对 MAA 进行评估的指导,重点关注其有效性和泛化能力。
- •
伦理考量:讨论部署 Agent AI 的社会影响和伦理领先榜,突出负责任的开发实践。
- •
新兴趋势和未来领先榜:对每个领域最新的发展进行分类,并讨论未来的方向。
基于计算机的动作和通用代理 (GA) 对许多任务很有用。 为了让 GA 真正地对用户有价值,它可以自然地进行交互,并泛化到广泛的上下文和模态。 我们的目标是培养充满活力的研究生态系统,并在 Agent AI 社区中建立共同的身份认同和目标感。 MAA 具有在各种上下文和模态中广泛应用的潜力,包括来自人类的输入。 因此,我们相信这个 Agent AI 领域可以吸引各种研究人员,培养充满活力的 Agent AI 社区和共同目标。 在学术界和工业界杰出专家的带领下,我们预计本文将是一次互动且丰富的体验,包含代理指令、案例研究、任务环节和实验讨论,确保所有研究人员都能获得全面而引人入胜的学习体验。
本文旨在提供有关 Agent AI 领域当前研究的概况和全面知识。 为此,本文的其余部分组织如下。 第 2 节概述了智能体 AI 如何通过与相关的新兴技术(尤其是大型基础模型)集成而受益。 第 3 节描述了我们为训练智能体 AI 提出的一个新范式和框架。 第 4 节概述了广泛用于训练智能体 AI 的方法。 第 5 节对各种类型的智能体进行了分类和讨论。 第 6 节介绍了智能体 AI 在游戏、机器人和医疗保健中的应用。 第 7 节探讨了研究界为开发通用智能体 AI 所做的努力,这种智能体能够跨各种模态、领域应用,并弥合模拟到现实的差距。 第 8 节讨论了智能体 AI 的潜力,它不仅依赖于预训练的基础模型,而且还通过利用与环境和用户的交互不断学习和自我改进。 第 9 节介绍了我们为训练多模态智能体 AI 而设计的新数据集。 第 11 节讨论了关于 AI 智能体的伦理考虑、局限性和本文对社会影响的热门话题。
2智能体 AI 集成
基于 LLM 和 VLM 的基础模型,如先前研究中所提议的那样,在具身 AI 领域仍然表现出有限的性能,特别是在理解、生成、编辑和在看不见的环境或场景中进行交互方面 Huang et al. (2023a); Zeng et al. (2023)。 因此,这些限制导致了 AI 智能体输出次优。 当前以智能体为中心的 AI 建模方法侧重于直接可访问和明确定义的数据(例如世界状态的文本或字符串表示),并且通常使用从其大规模预训练中学习到的领域和环境无关模式来预测每个环境的动作输出 Xi et al. (2023); Wang et al. (2023c); Gong et al. (2023a); Wu et al. (2023)。 在 (Huang et al., 2023a) 中,我们研究了通过结合大型基础模型来进行知识引导的协作和交互式场景生成的任務,并展示了有希望的结果,表明以知识为基础的 LLM 智能体可以提高 2D 和 3D 场景理解、生成和编辑的性能,以及其他的人机交互 Huang et al. (2023a)。 通过集成智能体 AI 框架,大型基础模型能够更深入地理解用户输入,从而形成一个复杂且自适应的 HCI 系统。 大语言模型 (LLM) 和视觉语言模型 (VLM) 的新兴能力在生成式 AI、具身 AI、多模态学习的知识增强、混合现实生成、文本到视觉编辑、游戏或机器人任务中 2D/3D 模拟的人机交互中不可见。 基础模型中的代理 AI 近期进展为在具身代理中解锁通用智能提供了迫在眉睫的催化剂。 大型动作模型或代理-视觉-语言模型为通用具身系统开辟了新的可能性,例如在复杂环境中进行规划、解决问题和学习。 代理 AI 测试是元宇宙的进一步步骤,也是 AGI 的早期版本的路线。
图 2: 用于跨现实 2D/3D 具身生成和编辑交互的多模态代理 AI。
2.1无限 AI 代理
AI 代理能够根据其训练和输入数据进行解释、预测和响应。 虽然这些能力已经很先进,并且不断改进,但重要的是要认识到它们的局限性以及它们所接受训练的基础数据的影響。 AI 代理系统通常具有以下能力: 1)预测建模:AI 代理可以根据历史数据和趋势预测可能的结果或建议下一步行动。 例如,它们可以预测文本的继续、问题的答案、机器人的下一个动作或场景的解决方式。 2)决策:在某些应用中,AI 代理可以根据其推断做出决策。 通常,代理将根据最有可能实现指定目标的方式做出决策。 对于推荐系统等 AI 应用,代理可以根据其对用户偏好的推断来决定推荐哪些产品或内容。 3)处理模糊性:AI 代理通常可以通过根据上下文和训练推断最可能的解释来处理模糊输入。 但是,它们执行此操作的能力受到其训练数据和算法范围的限制。 4) 持续改进:虽然一些人工智能代理能够从新数据和交互中学习,但许多大型语言模型在训练后不会持续更新其知识库或内部表示。 它们的推断通常仅基于训练更新之前可用的数据。
图 2 展示了增强型交互代理,用于跨模态和跨现实感知集成,并具有涌现机制。 人工智能代理需要为每个新任务收集大量的训练数据,这在许多领域可能是昂贵的或不可能的。 在本研究中,我们开发了一种无限代理,它学会将来自通用基础模型(例如 GPT-X、DALL-E)的记忆信息转移到新领域或场景中,以用于物理或虚拟世界中的场景理解、生成和交互式编辑。
RoboGen Wang et al. (2023d) 是这种无限代理在机器人技术中的应用。 在这项研究中,作者提出了一种管道,该管道可以自动运行任务建议、环境生成和技能学习的循环。 RoboGen 致力于将大型模型中嵌入的知识转移到机器人技术中。
2.2基于大型基础模型的代理人工智能
最近的研究表明,大型基础模型在创建数据方面发挥着至关重要的作用,这些数据充当基准,用于确定代理在环境约束下的行为。 例如,将基础模型用于机器人操作 Black et al. (2023); Ko et al. (2023) 和导航 Shah et al. (2023a); Zhou et al. (2023a)。 为了说明,Black 等人使用图像编辑模型作为高级规划器来生成未来子目标的图像,从而指导低级策略 Black et al. (2023)。 对于机器人导航,Shah 等人提出了一种系统,该系统使用 LLM 从文本中识别地标,并使用 VLM 将这些地标与视觉输入关联起来,通过自然语言指令增强导航 Shah et al. (2023a)。
人们越来越关注生成条件化的人类运动,以响应语言和环境因素。 已经提出了几种人工智能系统来生成适合特定语言指令的运动和动作 Kim et al. (2023); Zhang et al. (2022); Tevet et al. (2022),并适应各种 3D 场景 Wang et al. (2022a)。 这项研究强调了生成模型在增强人工智能代理在各种场景下的适应能力和响应能力方面的日益增长的能力。
2.2.1幻觉
生成文本的代理通常容易产生幻觉,即生成文本毫无意义或不忠实于提供的源内容 Raunak 等人 (2021); Maynez 等人 (2020)。 幻觉可以分为两类,内在 和 外在 Ji 等人 (2023)。 内在幻觉是指与源材料相矛盾的幻觉,而外在幻觉是指生成文本包含源材料中原本未包含的额外信息。
减少语言生成中幻觉率的一些有希望的途径包括使用检索增强生成 Lewis 等人 (2020); Shuster 等人 (2021) 或其他通过外部知识检索来验证自然语言输出的方法 Dziri 等人 (2021); Peng 等人 (2023)。 通常,这些方法试图通过检索额外的源材料以及提供机制来检查生成响应与源材料之间的矛盾来增强语言生成。
在多模态代理系统的背景下,已证明 VLM 也会产生幻觉 Zhou 等人 (2023b)。 视觉语言生成中幻觉的一个常见原因是过度依赖训练数据中物体和视觉线索的共现 Rohrbach 等人 (2018)。 仅依赖于预训练的 LLM 或 VLM 并使用有限的环境特定微调的 AI 代理特别容易产生幻觉,因为它们依赖于预训练模型的内部知识库来生成动作,并且可能无法准确理解其部署的世界的动态。
2.2.2偏差和包容性
基于 LLM 或 LMM(大型多模态模型)的 AI 代理由于其设计和训练过程中的几个固有因素而存在偏差。 在设计这些 AI 代理时,我们必须注意包容性,并意识到所有最终用户和利益相关者的需求。 在 AI 代理的背景下,包容性是指为确保代理的响应和交互具有包容性、尊重性和敏感性而采用的措施和原则,这些响应和交互要针对来自不同背景的广泛用户。 我们列出了下面代理偏差和包容性的关键方面。
- •
训练数据:基础模型是在从互联网收集的大量文本数据上训练的,包括书籍、文章、网站和其他文本来源。 这些数据通常反映了人类社会中存在的偏差,并且模型可能无意中学习并复制这些偏差。 这包括与种族、性别、民族、宗教和其他个人属性相关的刻板印象、偏见和偏颇的观点。 特别是,通过对互联网数据(通常仅为英文文本)进行训练,模型隐式地学习了西方、受过教育、工业化、富裕和民主(WEIRD)社会的文化规范 Henrich et al. (2010),这些社会在互联网上的存在比例过高。 然而,必须认识到,人类创建的数据集不可能完全没有偏见,因为它们经常反映了社会偏见以及最初生成和/或编译数据的个人的倾向。
- •
历史和文化偏见: AI 模型是在从各种内容中获取的大型数据集上进行训练的。 因此,训练数据通常包括来自各种文化的历史文本或材料。 特别是,来自历史来源的训练数据可能包含具有冒犯性或贬损性的语言,这些语言代表了特定社会的文化规范、态度和偏见。 这会导致模型延续过时的刻板印象,或无法完全理解当代文化的转变和细微差别。
- •
语言和语境限制: 语言模型可能难以理解和准确地表达语言中的细微差别,例如讽刺、幽默或文化参照。 这会导致在某些语境中出现误解或有偏见的反应。 此外,口语中有许多方面无法通过纯文本数据捕捉到,这会导致人类对语言的理解与模型对语言的理解之间存在潜在的脱节。
- •
政策和指南: AI 代理在严格的政策和指南下运作,以确保公平性和包容性。 例如,在生成图像时,存在规则来使人物的描绘多样化,避免与种族、性别和其他属性相关的刻板印象。
- •
过度泛化: 这些模型倾向于根据训练数据中观察到的模式生成响应。 这会导致过度泛化,模型可能会产生看似对某些群体进行刻板印象或做出广泛假设的响应。
- •
持续监控和更新: AI 系统不断受到监控和更新,以解决任何新出现的偏见或包容性问题。 用户的反馈和 AI 伦理学领域的持续研究在这个过程中发挥着至关重要的作用。
- •
主导观点的放大: 由于训练数据通常包含来自主导文化或群体的更多内容,因此模型可能更倾向于这些观点,可能会低估或误解少数群体的观点。
- •
道德和包容性设计: AI 工具的设计应将道德考量和包容性作为核心原则。 这包括尊重文化差异,促进多样性,并确保 AI 不延续有害的刻板印象。
- •
用户指南: 用户还被指导如何以促进包容性和尊重的方式与 AI 交互。 这包括避免可能导致偏见或不当输出的请求。 此外,它可以帮助减轻模型从用户交互中学习有害内容。
尽管采取了这些措施,但 AI 代理仍然表现出偏见。 代理 AI 研究和开发的持续努力集中在进一步减少这些偏见,并增强代理 AI 系统的包容性和公平性。 减轻偏见的努力:
- •
多样化和包容性训练数据: 努力在训练数据中包含更多样化和包容性的来源。
- •
偏见检测和纠正: 正在进行的研究集中在检测和纠正模型响应中的偏见。
- •
道德指南和政策: 模型通常受旨在减轻偏见并确保尊重和包容性交互的道德指南和政策的约束。
- •
多样化代表: 确保 AI 代理生成的內容或提供的响应代表广泛的人类体验、文化、种族和身份。 这在图像生成或叙事构建等场景中尤为重要。
- •
偏见缓解: 积极努力减少 AI 响应中的偏见。 这包括与种族、性别、年龄、残疾、性取向和其他个人特征相关的偏见。 目标是提供公正和平衡的回应,不 perpetuate stereotypes 或 prejudices。
- •
文化敏感性: 人工智能旨在具有文化敏感性,承认和尊重文化规范、实践和价值观的差异。 这包括理解和适当地回应文化参考和细微差别。
- •
可访问性: 确保人工智能代理对具有不同能力的用户,包括残疾人,都是可访问的。 这可能涉及合并使残疾人更容易进行交互的功能。
- •
基于语言的包容性: 为多种语言和方言提供支持,以满足全球用户群的需求,并对语言中的细微差别和变化保持敏感 Liu 等人 (2023b)。
- •
道德和尊重的互动: 该代理被编程为与所有用户以道德和尊重的态度进行互动,避免可能被认为具有攻击性、有害或不尊重的回应。
- •
用户反馈和适应: 合并用户反馈,不断改进人工智能代理的包容性和有效性。 这包括从互动中学习,以更好地理解和服务于多元化的用户群。
- •
符合包容性指南: 遵守针对人工智能代理的包容性建立的指南和标准,这些指南和标准通常由行业组织、道德委员会或监管机构制定。
尽管做出了这些努力,但必须意识到回应中可能存在的偏见,并以批判性思维来解读它们。 人工智能代理技术和道德实践的持续改进旨在随着时间的推移减少这些偏见。 人工智能代理包容性的首要目标之一是创建一个尊重所有用户并对所有用户都可访问的代理,无论其背景或身份如何。
2.2.3数据隐私和使用
人工智能代理的一个关键伦理考虑因素涉及理解这些系统如何处理、存储和潜在检索用户数据。 我们将在下面讨论关键方面:
数据收集、使用和目的。
在使用用户数据来提高模型性能时,模型开发者会访问人工智能代理在生产环境中与用户交互时收集的数据。 一些系统允许用户通过用户帐户或向服务提供商提出请求来查看他们的数据。 重要的是要认识到人工智能代理在这些交互过程中收集了哪些数据。 这可能包括文本输入、用户使用模式、个人偏好,有时还包括更敏感的个人信息。 用户还应了解从其交互中收集的数据是如何使用的。 如果人工智能出于某种原因持有关于某个特定人员或群体的错误信息,应该有一个机制让用户在识别到错误信息后帮助纠正它。 对于准确性和尊重所有用户和群体来说,这一点都很重要。 获取和分析用户数据的常见用途包括改进用户交互、个性化响应和系统优化。 开发人员务必确保数据不被用于用户未同意目的,例如未经请求的营销。
存储和安全。
开发人员应该知道用户交互数据存储在哪里以及有哪些安全措施可以防止未经授权的访问或泄露。 这包括加密、安全服务器和数据保护协议。 确定代理数据是否与第三方共享以及在什么条件下共享非常重要。 这应该透明,并且通常需要用户的同意。
数据删除和保留。
用户还需了解用户数据存储的时间长度以及如何请求删除数据。 许多数据保护法律赋予用户“被遗忘权”,这意味着他们可以请求删除自己的数据。 AI 代理必须遵守数据保护法律,例如欧盟的 GDPR 或加州的 CCPA。 这些法律规范了数据处理实践和用户对其个人数据的权利。
数据可移植性和隐私政策。
此外,开发人员必须创建 AI 代理的隐私政策,以记录并向用户解释其数据的处理方式。 这应该详细说明数据收集、使用、存储和用户权利。 开发人员应确保他们获得用户同意收集数据,特别是敏感信息。 用户通常可以选择退出或限制他们提供的数据。 在某些司法管辖区,用户甚至有权请求以可传输到其他服务提供商的格式获取其数据的副本。
匿名化。
对于用于更广泛分析或 AI 训练的数据,理想情况下应将其匿名化以保护个人身份。 开发人员必须了解他们的 AI 代理在交互期间如何检索和使用历史用户数据。 这可能是为了个性化或提高响应的相关性。
总之,了解 AI 代理的数据隐私包括了解用户数据的收集、使用、存储和保护方式,并确保用户了解他们访问、更正和删除其数据的权利。 用户和 AI 代理对数据检索机制的认识对于全面理解数据隐私也是至关重要的。
2.2.4可解释性和可解释性
模仿学习 → 解耦。
代理通常使用强化学习 (RL) 或模仿学习 (IL) 中的连续反馈循环进行训练,从随机初始化的策略开始。 但是,这种方法在获得陌生环境中的初始奖励方面面临着排行榜问题,尤其是在奖励稀疏或仅在长时间交互结束时才能获得时。 因此,更好的解决方案是使用通过 IL 训练的无限记忆代理,该代理可以从专家数据中学习策略,从而提高探索能力,并利用图 3 中所示的新兴基础设施,利用看不见的环境空间。 利用专家特征帮助代理更好地探索并利用看不见的环境空间。 代理 AI 可以直接从专家数据中学习策略和新的范式流程。
传统的 IL 让一个代理模仿专家的行为来学习策略。 但是,直接学习专家策略可能并非总是最佳方法,因为代理可能无法很好地推广到看不见的情况。 为了解决这个问题,我们建议学习一个带有上下文提示或隐式奖励函数的代理,该函数捕获专家行为的关键方面,如图 3 所示。 这为无限记忆代理提供了来自专家演示学习的用于任务执行的物理世界行为数据。 它有助于克服现有的模仿学习缺点,例如需要大量专家数据以及复杂任务中可能出现的错误。 代理 AI 背后的关键思想分为两部分:1)收集物理世界专家演示作为状态-动作对的无限代理;2)模仿代理生成器的虚拟环境。 模仿代理产生的动作模仿专家的行为,而代理通过减少专家动作与学习策略生成的动作之间差异的损失函数,学习从状态到动作的策略映射。
解耦 → 泛化。
与依赖于特定任务的奖励函数不同,代理从专家演示中学习,专家演示提供了涵盖各种任务方面的不同状态-动作对。 然后,代理学习一个将状态映射到动作的策略,方法是模仿专家的行为。 模仿学习中的解耦是指将学习过程与特定任务的奖励函数分离,使策略能够在不同任务之间进行泛化,而无需明确依赖特定任务的奖励函数。 通过解耦,代理可以从专家演示中学习,并学习一个适用于各种情况的策略。 解耦使迁移学习成为可能,其中在一个领域学习的策略可以适应其他领域,只需进行最小的微调。 通过学习一个不与特定奖励函数绑定的通用策略,代理可以利用它在一个任务中获得的知识在其他相关任务中表现良好。 由于代理不依赖于特定的奖励函数,因此它可以适应奖励函数或环境的变化,而无需进行大量的重新训练。 这使得学习到的策略在不同的环境中更加稳健和可推广。 在这种情况下,解耦是指学习过程中的两个任务分离:学习奖励函数和学习最优策略。
图 3: 使用代理从候选文本中识别与图像相关的文本的紧急交互机制示例。 该任务涉及使用来自网络的多模态 AI 代理和人工标注的知识交互样本来整合外部世界信息。
泛化 → 紧急行为。
泛化解释了如何从更简单的组件或规则中产生新兴的属性或行为。 关键思想在于识别控制系统行为的基本元素或规则,例如单个神经元或基本算法。 因此,通过观察这些简单组件或规则如何相互作用。 这些组件之间的相互作用通常会导致复杂行为的出现,而这些行为无法仅通过单独检查各个组件来预测。 跨不同复杂程度的泛化允许系统学习适用于这些层次的通用原则,从而导致涌现性质。 这使系统能够适应新的情况,展示了从更简单的规则中出现的更复杂的行为。 此外,跨不同复杂程度泛化的能力促进了知识从一个领域到另一个领域的迁移,这有助于系统在适应时在新的环境中出现复杂的行为。
2.2.5 推理增强
AI 代理的推理能力在于其根据其训练和输入数据进行解释、预测和响应的能力。 虽然这些能力很先进并且不断改进,但重要的是要认识到它们的局限性以及它们所训练的底层数据的影響。 特别是在大型语言模型的背景下,它指的是它根据其所接受的训练数据和输入来得出结论、做出预测和生成响应的能力。 AI 代理中的推理增强指的是用额外的工具、技术或数据来增强 AI 的自然推理能力,以提高其性能、准确性和效用。 这在复杂的决策情景中或处理细微或专业内容时尤其重要。 我们在下面特别指出了推理增强的重要来源:
数据丰富。
整合额外的(通常是外部的)数据源以提供更多上下文或背景信息可以帮助 AI 代理做出更明智的推断,尤其是在其训练数据可能有限的领域。 例如,AI 代理可以从对话或文本的上下文中推断含义。 它们分析给定的信息并使用它来理解用户查询的意图和相关细节。 这些模型擅长识别数据中的模式。 它们利用这种能力根据在训练期间学习到的模式,对语言、用户行为或其他相关现象进行推断。
算法增强。
改善人工智能的底层算法以进行更好的推断。 这可能涉及使用更先进的机器学习模型、整合不同类型的 AI(例如将 NLP 与图像识别相结合)或更新算法以更好地处理复杂任务。 语言模型中的推断涉及理解和生成人类语言。 这包括理解语气、意图和不同语言结构的细微差别。
人工参与循环(HITL)。
在人类判断至关重要的领域,例如道德考量、创意任务或模棱两可的场景,让用户参与到 AI 的推断中,可以特别有用。 人类可以提供指导,纠正错误或提供代理无法自行推断的见解。
实时反馈集成。
利用来自用户或环境的实时反馈来增强推断是提高推断性能的另一种很有前景的方法。 例如,人工智能可以根据实时用户响应或动态系统中不断变化的条件调整其推荐。 或者,如果代理正在模拟环境中采取破坏某些规则的行为,那么可以动态地向代理提供反馈以帮助其自我纠正。
跨领域知识迁移。
利用一个领域中的知识或模型来改进另一个领域的推断,在特定领域内生成输出时尤其有用。 例如,为语言翻译开发的技术可以应用于代码生成,或者来自医学诊断的见解可以增强机器的预测性维护。
特定用例的定制。
为特定应用或行业定制 AI 的推理能力可能涉及在专门数据集上训练 AI 或微调其模型,使其更适合特定任务,例如法律分析、医疗诊断或财务预测。 由于一个领域内的特定语言或信息可能与其他领域内的语言形成鲜明对比,因此在特定领域信息上微调代理可能是有益的。
伦理和偏见考虑因素。
确保增强过程不会引入新的偏见或伦理问题非常重要。 这涉及仔细考虑额外数据来源或新的推理增强算法对公平性和透明度的影响。 在进行推理时,尤其是在涉及敏感话题时,AI 代理有时必须权衡伦理考虑因素。 这涉及避免有害的刻板印象,尊重隐私并确保公平。
持续学习和适应。
定期更新和改进 AI 的功能,以跟上新发展、不断变化的数据格局和不断发展的用户需求。
总之,AI 代理中的推理增强涉及通过额外数据、改进的算法、人工输入和其他技术来增强其自然推理能力的方法。 根据用例的不同,这种增强通常对于处理复杂任务和确保代理输出的准确性至关重要。
2.2.6 监管
最近,代理 AI 取得了重大进展,其在具身系统中的集成为通过更身临其境、动态和引人入胜的体验与代理交互开辟了新的可能性。 为了加快流程并简化代理 AI 开发中的繁琐工作,我们建议开发下一代 AI 支持的代理交互管道。 开发一个人机协作系统,让人类和机器能够有意义地沟通和互动。 该系统可以利用 LLM 或 VLM 的对话能力和大量动作来与人类玩家交谈并识别人类需求。 然后,它将根据要求执行适当的操作来帮助人类玩家。
在将 LLM/VLM 用于人机协作系统时,必须注意这些系统作为黑盒子运行,会生成不可预测的输出。 这种不确定性在物理环境中可能变得至关重要,例如操作实际的机器人。 解决这一挑战的一种方法是通过提示工程来限制 LLM/VLM 的关注点。 例如,在从指令进行机器人任务规划中,据报道,在提示中提供环境信息比仅仅依赖文本 Gramopadhye 和 Szafir (2022) 会产生更稳定的输出。 该报告得到了明斯基的 AI 框架理论 Minsky (1975) 的支持,该理论表明,LLM/VLM 要解决的问题空间由给定的提示定义。 另一种方法是设计提示,使 LLM/VLM 包含解释性文本,以便用户了解模型所关注的内容或识别的内容。 此外,实现更高层允许在人类指导下进行预执行验证和修改可以促进在这样指导下工作的系统的操作(图 4)。
图 4: 在 Wake 等人 (2023c) 中开发的机器人教学系统。 (左)系统工作流程。 该过程包括三个步骤:任务规划,其中 ChatGPT 从指令和环境信息中规划机器人任务;演示,用户在其中直观地演示动作序列。 用户会查看所有步骤,如果任何步骤失败或显示缺陷,则可以根据需要重新审视之前的步骤。 (右)一个 Web 应用程序,它允许上传演示数据以及用户与 ChatGPT 之间的交互。
2.3 用于涌现能力的 Agent AI
尽管交互式智能体 AI 系统的采用不断增加,但大多数提出的方法在未见环境或场景中的泛化性能方面仍然面临挑战。 当前的建模实践要求开发人员为每个领域准备大型数据集来微调/预训练模型;然而,如果该领域是新的,这个过程既昂贵又不可能。 为了解决这个问题,我们构建了利用通用基础模型(ChatGPT、Dall-E、GPT-4 等)的知识记忆来处理新场景的交互式智能体,特别是为了生成人机协作空间。 我们发现了一种新兴机制——我们将其命名为混合现实与知识推理交互——它有助于与人类协作以解决复杂现实世界环境中的具有挑战性的任务,并能够探索未见环境以适应虚拟现实。 对于这种机制,智能体学习 i) 交叉模态中的微反应:从显式网络来源收集每个交互任务(例如,理解未见场景)的相关个体知识,并通过隐式推理从预训练模型的输出中推断;ii) 现实无关的宏观行为:改进语言和多模态领域的交互维度和模式,并根据角色特征、特定目标变量、混合现实和 LLM 中协作信息的受影响多样化来进行更改。 我们研究了知识引导的交互协同效应来协作场景生成的任务,结合了各种 OpenAI 模型,并展示了交互式智能体系统如何在我们的环境中进一步增强大型基础模型的有希望的结果。 它集成了并提高了复杂自适应 AI 系统的泛化深度、意识和可解释性。
3智能体 AI 范式
在本节中,我们讨论了一种新的训练智能体 AI 的范式和框架。 我们希望通过我们提出的框架实现几个目标:
- •
利用现有的预训练模型和预训练策略来有效地引导我们的智能体了解重要模态,例如文本或视觉输入。
- •
支持足够的长期任务规划能力。
- •
将一个记忆框架整合进来,该框架允许将学习到的知识进行编码并在以后检索。
- •
允许使用环境反馈来有效地训练智能体学习采取哪些行动。
我们在图 5 中展示了一个新的高级智能体图,概述了这种系统的关键子模块。
图 5: 我们提出的用于多模态通才代理的新代理范式。 如图所示,共有 5 个主要模块:1) 环境和感知,包括任务规划和技能观察;2) 代理学习;3) 内存;4) 代理行动;5) 认知。
3.1LLM 和 VLM
如图 5 所示,我们可以使用 LLM 或 VLM 模型来引导代理的组件。 特别地,LLM 已被证明在任务规划方面表现良好 Gong 等人 (2023a),包含大量世界知识 Yu 等人 (2023b),并展示了令人印象深刻的逻辑推理能力 Creswell 等人 (2022)。 此外,诸如 CLIP Radford 等人 (2021) 之类的 VLM 提供了语言对齐的通用视觉编码器,并提供零样本视觉识别能力。 例如,最先进的开源多模态模型,例如 LLaVA Liu 等人 (2023c) 和 InstructBLIP Dai 等人 (2023),依赖于冻结的 CLIP 模型作为视觉编码器。
图 6: 我们展示了通过将大型语言模型 (LLM) 与大型视觉模型 (LVM) 相结合来创建多模态人工智能代理的当前范式。 通常,这些模型接受视觉或语言输入,并使用预训练和冻结的视觉和语言模型,学习连接和桥接模态的较小子网络。 例如,Flamingo Alayrac 等人 (2022),BLIP-2 Li 等人 (2023c),InstructBLIP Dai 等人 (2023) 和 LLaVA Liu 等人 (2023c)。
3.2代理 Transformer 定义
除了使用冻结的 LLM 和 VLM 用于人工智能代理之外,还可以使用单个代理 Transformer 模型,该模型将视觉标记和语言标记作为输入,类似于 Gato Reed 等人 (2022)。 除了视觉和语言之外,我们还添加了第三种通用类型的输入,我们将其表示为 agent 标记。 从概念上讲,代理标记用于为模型的输入和输出空间保留代理行为的特定子空间。 对于机器人技术或游戏玩法,这可能表示为控制器的输入动作空间。 当训练代理使用特定工具时,例如图像生成或图像编辑模型,或用于其他 API 调用,代理符元也可以使用。 如图 7 所示,我们可以将代理符元与视觉和语言符元结合起来,为训练多模态代理 AI 生成一个统一的界面。 与使用大型专有 LLM 作为代理相比,使用代理 Transformer 有几个优势。 首先,模型可以很容易地定制为非常具体的代理任务,这些任务可能难以用自然语言表示(例如控制器输入或其他特定操作)。 因此,代理可以从环境交互和特定领域的数据中学习,以提高性能。 其次,通过访问代理符元的概率,可以更容易地理解模型为何采取或不采取特定行动。 第三,某些领域,如医疗保健和法律,对数据隐私有严格的要求。 最后,一个相对较小的代理 Transformer 可能比一个更大的专有语言模型便宜得多。
图 7: 统一的代理多模态 Transformer 模型。 我们建议一个统一的端到端训练范式,用于代理系统,而不是连接冻结的子模块并使用现有的基础模型作为构建块。 我们仍然可以使用 LLM 和 LVM 初始化子模块,如 图