引言
这是2024年1月7号最新发布的一项研究,由Stanford University的Zane Durante, Bidipta Sarkar和Rohan Taori,以及Microsoft Research, Redmond的Qiuyuan Huang, Naoki Wake和Jianfeng Gao,University of California, Los Angeles的Ran Gong和 Demetri Terzopoulos,University of Washington的Jae Sung Park和Yejin Choi,以及Microsoft Gaming的Yusuke Noda和Hoi Vo共同完成。多模态AI系统很可能将在我们的日常生活中无处不在。一个有前景的方法是让这些系统在物理和虚拟环境中作为代理体进行互动。目前,研究者们利用现有的基础模型作为创造代理体的基本构建块。将代理体嵌入这样的环境有助于模型处理和解释视觉和情境数据,这对于创建更加复杂和具有情境感知的AI系统至关重要。举个例子,一个可以感知用户行为、人类行为、环境对象、音频表达和场景的集体情感的系统,可以用来引导和指导代理体在给定环境中的反应。为了加速基于代理体的多模态智能的研究,研究者们定义AI Agent作为一类能够感知视觉刺激、语言输入和其他以环境为基础的数据,并能生成具有无尽代理体的有意义的实体行动的交互系统。特别地,研究者们探索的是着眼于通过整合外部知识、多感官输入和人类反馈来改善代理体的系统,这些都基于下一步的实体行动预测。研究者们认为,通过在实际环境中开发AI Agent系统,也可以减少大型基础模型的产生错误输出的倾向。新兴的AI Agent领域涵盖了多模态交互的更广泛的实体化和代理性方面。除了代理体在物理世界中行动和互动外,研究者们预见到一个未来,人们可以轻松地创造任何虚拟现实或模拟场景,并与嵌入在虚拟环境中的代理体互动。
这是一个可以在不同领域和应用中感知和行动的AI Agent系统的概述。AI Agent正在成为通向人工通用智能(AGI)的有希望的途径。AI Agent训练已经展示了在物理世界中进行多模态理解的能力。通过利用生成AI以及多个独立的数据源,它提供了一个对现实无关的训练框架。针对代理和行动相关任务进行训练的大型基础模型可以应用于物理和虚拟世界,当在跨现实数据上进行训练时。我们在这里介绍了一个可以在许多不同领域和应用中感知和行动的AI Agent系统的总体概览,可能作为使用代理范例向AGI前进的途径。
1 AI Agent系统的总体概览
1.1 Motivation
1956年的达特茅斯会议上定义了AI系统为可以从环境中收集信息并以有用的方式与之相互作用的人工生命形态。受此定义的鼓励,1970年Minsky的麻省理工学院小组建造了一个名为“复印演示”的机器人系统,该系统观察了积木世界的场景,并成功的重构了观察到的多面体积木结构。该系统包括观察,计划和操纵模块,揭示了这些子问题都具有很高的挑战性,需要进一步的研究。从而,AI领域分化为专门的子领域,这些子领域在处理这些问题以及其它问题上取得了很大的独立进展,但是过度的还原主义模糊了AI研究的总体目标。
要超越现状,需要回归到由亚里士多德的整体主义所激发的AI基础。幸运的是,最近大型语言模型(LLMs)和视觉语言模型(VLMs)的革命使得创建与整体理想一致的新型AI代理成为可能。抓住这个机会,本文探索了集成语言熟练度,视觉认知,情境记忆,直觉推理及适应性的模型。利用LLMs和VLMs可能完成这种整体综合。同时,我们也重温了基于亚里士多德的目的原因的系统设计,这可能在先前的AI发展中被忽视。
随着强大的预训练LLMs和VLMs的出现,催生了自然语言处理和计算机视觉的复兴。LLMs现在展示了解密现实世界语言数据细微之处的令人印象深刻的能力,经常实现与人类专家平行甚至超越的能力。近期,研究者已经表明,LLMs可以扩展为在各种环境中作为代理人,当与特定领域的知识和模块相配对时,可以执行复杂的行动和任务。这些场景需要代理人理解其角色和环境,进行多步计划,测试了代理人在其环境约束中做出微妙和复杂决策的能力。
基于这些初步工作,AI社区正处于一个重大的典范转变的边缘,从为被动,结构化的任务创建AI模型,转变为能够在各种复杂环境中扮演动态角色的模型。在这个背景下,本文调查了使用LLMs和VLMs作为代理人的巨大潜力,强调了具有语言熟练度,视觉认知,情景记忆,直觉推理和适应性的模型。以游戏,机器人,医疗保健等领域的代理人特别是利用LLMs和VLMs,不仅承诺了对最先进AI系统的严格评估平台,还预示了以代理为中心的AI将对社会和行业产生的变革性影响。当代理模型被充分利用时,可以重新定义人类的体验并提升运营标准。
1.2 Background
研究者们在本部分介绍了支持Agent AI概念、理论背景和现代实现的相关研究论文。
大型基础模型(Large Foundation Models):
大型语言模型(LLMs)和巨型语言模型(VLMs)一直在推动开发通用智能机器的努力。尽管它们是通过大规模文本语料进行训练的,但其卓越的问题解决能力并不局限于传统的语言处理领域。LLMs潜在地可以应对从人类专家或领域特定算法独有的复杂任务,包括数学推理[imani2023mathprompter, wei2022chain, zhu2022solving]到回答专业法律问题[blair2023can, choi2023chatgpt, nay2022law]。近期的研究已经显示出使用LLMs为机器人和游戏AI生成复杂计划的可能性[codeaspolicies2022, wang2023describe, wang2023voyager, yao2023react, huang2023ark],这标志着LLMs作为通用智能代理的重要里程碑。
具体化的AI(Embodied AI):
许多工作利用LLMs进行任务规划[pmlr-v162-huang22a, wang2023voyager, yao2023react, li2023camel],尤其是利用LLMs的WWW级别的领域知识和紧急的零射击具体化能力执行复杂任务规划和推理。近期的机器人研究也利用LLMs进行任务规划[saycan2022arxiv, huang2022inner, codeaspolicies2022],通过将自然语言指令分解为子任务序列,无论是自然语言形式还是Python代码形式,然后使用低级控制器执行这些子任务。此外,它们还结合了环境反馈以提高任务性能[huang2022inner, codeaspolicies2022, wang2023describe, ikeuchi2023applying]。
交互式学习(Interactive Learning):
为交互式学习设计的AI代理采用机器学习技术和用户交互的组合运作。最初,AI代理在大型数据集上进行训练。这个数据集包含各种类型的信息,取决于代理的预期功能。例如,为语言任务设计的AI将在大量文本数据上进行训练。训练涉及使用机器学习算法,这可能包括深度学习模型如神经网络。这些训练模型使AI能够识别模式、进行预测,并根据其训练的数据生成响应。AI代理还可以从与用户的实时互动中学习。这种交互式学习可以通过各种方式进行:1)基于反馈的学习:AI根据用户直接反馈调整其响应。例如,如果用户纠正了AI的响应,AI可以使用这个信息来改进未来的响应。2)观察学习:AI观察用户交互并隐性学习。例如,如果用户经常提问相类似的问题或特定方式与AI进行交互,AI可能会调整其响应以更好地适应这些模式。它允许AI代理理解和处理人类语言、多模式设置,解释跨现实上下文,并生成人类用户的响应。随着更多的用户交互和反馈,AI代理的性能通常会持续改进。这个过程通常由人类操作员或开发者监督,确保AI正在适当地学习,而不是发展出偏见或错误的模式。
1.3 Overview
多模态智能体AI(Multimodal Agent AI: MAA)是一类基于理解多模态感知输入在特定环境中生成有效行为的系统。随着大型语言模型(LLMs)和视觉语言模型(VLMs)的出现,许多不同领域的MAA系统已经被开发出来,这些领域包括基础研究和应用。虽然这些研究领域通过与各自领域的传统技术(例如,视觉问题回答和视觉语言导航)整合,迅速发展,但它们都关注如数据收集、基准测试和道德视角等共同的问题。本文将重点关注几个代表性的MAA研究领域,包括多模态、游戏(VR/AR/MR)、机器人技术和医疗保健,并对这些领域讨论的共同问题提供全面的知识。我们希望通过此次研究,理解MAA的基础原理,并推动研究者进一步发展他们的研究。具体的学习成果包括:
-
1. MAA概述:深入了解其原理和在现代应用中的作用,为研究者提供全面理解其重要性和用途。
-
2. 方法论:通过在游戏、机器人技术和医疗保健等领域的案例研究,详细说明LLMs和VLMs如何提升MAAs的能力。
-
3. 性能评估:对相关数据集进行MAAs的评估指导,重点关注其效果和泛化性。
<