AI Agent最新综述:多模态互动领域的新视角探索

引言

这是2024年1月7号最新发布的一项研究,由Stanford University的Zane Durante, Bidipta Sarkar和Rohan Taori,以及Microsoft Research, Redmond的Qiuyuan Huang, Naoki Wake和Jianfeng Gao,University of California, Los Angeles的Ran Gong和 Demetri Terzopoulos,University of Washington的Jae Sung Park和Yejin Choi,以及Microsoft Gaming的Yusuke Noda和Hoi Vo共同完成。多模态AI系统很可能将在我们的日常生活中无处不在。一个有前景的方法是让这些系统在物理和虚拟环境中作为代理体进行互动。目前,研究者们利用现有的基础模型作为创造代理体的基本构建块。将代理体嵌入这样的环境有助于模型处理和解释视觉和情境数据,这对于创建更加复杂和具有情境感知的AI系统至关重要。举个例子,一个可以感知用户行为、人类行为、环境对象、音频表达和场景的集体情感的系统,可以用来引导和指导代理体在给定环境中的反应。为了加速基于代理体的多模态智能的研究,研究者们定义AI Agent作为一类能够感知视觉刺激、语言输入和其他以环境为基础的数据,并能生成具有无尽代理体的有意义的实体行动的交互系统。特别地,研究者们探索的是着眼于通过整合外部知识、多感官输入和人类反馈来改善代理体的系统,这些都基于下一步的实体行动预测。研究者们认为,通过在实际环境中开发AI Agent系统,也可以减少大型基础模型的产生错误输出的倾向。新兴的AI Agent领域涵盖了多模态交互的更广泛的实体化和代理性方面。除了代理体在物理世界中行动和互动外,研究者们预见到一个未来,人们可以轻松地创造任何虚拟现实或模拟场景,并与嵌入在虚拟环境中的代理体互动。

这是一个可以在不同领域和应用中感知和行动的AI Agent系统的概述。AI Agent正在成为通向人工通用智能(AGI)的有希望的途径。AI Agent训练已经展示了在物理世界中进行多模态理解的能力。通过利用生成AI以及多个独立的数据源,它提供了一个对现实无关的训练框架。针对代理和行动相关任务进行训练的大型基础模型可以应用于物理和虚拟世界,当在跨现实数据上进行训练时。我们在这里介绍了一个可以在许多不同领域和应用中感知和行动的AI Agent系统的总体概览,可能作为使用代理范例向AGI前进的途径。 

1 AI Agent系统的总体概览

1.1  Motivation

1956年的达特茅斯会议上定义了AI系统为可以从环境中收集信息并以有用的方式与之相互作用的人工生命形态。受此定义的鼓励,1970年Minsky的麻省理工学院小组建造了一个名为“复印演示”的机器人系统,该系统观察了积木世界的场景,并成功的重构了观察到的多面体积木结构。该系统包括观察,计划和操纵模块,揭示了这些子问题都具有很高的挑战性,需要进一步的研究。从而,AI领域分化为专门的子领域,这些子领域在处理这些问题以及其它问题上取得了很大的独立进展,但是过度的还原主义模糊了AI研究的总体目标。

要超越现状,需要回归到由亚里士多德的整体主义所激发的AI基础。幸运的是,最近大型语言模型(LLMs)和视觉语言模型(VLMs)的革命使得创建与整体理想一致的新型AI代理成为可能。抓住这个机会,本文探索了集成语言熟练度,视觉认知,情境记忆,直觉推理及适应性的模型。利用LLMs和VLMs可能完成这种整体综合。同时,我们也重温了基于亚里士多德的目的原因的系统设计,这可能在先前的AI发展中被忽视。

随着强大的预训练LLMs和VLMs的出现,催生了自然语言处理和计算机视觉的复兴。LLMs现在展示了解密现实世界语言数据细微之处的令人印象深刻的能力,经常实现与人类专家平行甚至超越的能力。近期,研究者已经表明,LLMs可以扩展为在各种环境中作为代理人,当与特定领域的知识和模块相配对时,可以执行复杂的行动和任务。这些场景需要代理人理解其角色和环境,进行多步计划,测试了代理人在其环境约束中做出微妙和复杂决策的能力。

基于这些初步工作,AI社区正处于一个重大的典范转变的边缘,从为被动,结构化的任务创建AI模型,转变为能够在各种复杂环境中扮演动态角色的模型。在这个背景下,本文调查了使用LLMs和VLMs作为代理人的巨大潜力,强调了具有语言熟练度,视觉认知,情景记忆,直觉推理和适应性的模型。以游戏,机器人,医疗保健等领域的代理人特别是利用LLMs和VLMs,不仅承诺了对最先进AI系统的严格评估平台,还预示了以代理为中心的AI将对社会和行业产生的变革性影响。当代理模型被充分利用时,可以重新定义人类的体验并提升运营标准。

1.2 Background

研究者们在本部分介绍了支持Agent AI概念、理论背景和现代实现的相关研究论文。

大型基础模型(Large Foundation Models):

大型语言模型(LLMs)和巨型语言模型(VLMs)一直在推动开发通用智能机器的努力。尽管它们是通过大规模文本语料进行训练的,但其卓越的问题解决能力并不局限于传统的语言处理领域。LLMs潜在地可以应对从人类专家或领域特定算法独有的复杂任务,包括数学推理[imani2023mathprompter, wei2022chain, zhu2022solving]到回答专业法律问题[blair2023can, choi2023chatgpt, nay2022law]。近期的研究已经显示出使用LLMs为机器人和游戏AI生成复杂计划的可能性[codeaspolicies2022, wang2023describe, wang2023voyager, yao2023react, huang2023ark],这标志着LLMs作为通用智能代理的重要里程碑。

具体化的AI(Embodied AI):

许多工作利用LLMs进行任务规划[pmlr-v162-huang22a, wang2023voyager, yao2023react, li2023camel],尤其是利用LLMs的WWW级别的领域知识和紧急的零射击具体化能力执行复杂任务规划和推理。近期的机器人研究也利用LLMs进行任务规划[saycan2022arxiv, huang2022inner, codeaspolicies2022],通过将自然语言指令分解为子任务序列,无论是自然语言形式还是Python代码形式,然后使用低级控制器执行这些子任务。此外,它们还结合了环境反馈以提高任务性能[huang2022inner, codeaspolicies2022, wang2023describe, ikeuchi2023applying]。

交互式学习(Interactive Learning):

为交互式学习设计的AI代理采用机器学习技术和用户交互的组合运作。最初,AI代理在大型数据集上进行训练。这个数据集包含各种类型的信息,取决于代理的预期功能。例如,为语言任务设计的AI将在大量文本数据上进行训练。训练涉及使用机器学习算法,这可能包括深度学习模型如神经网络。这些训练模型使AI能够识别模式、进行预测,并根据其训练的数据生成响应。AI代理还可以从与用户的实时互动中学习。这种交互式学习可以通过各种方式进行:1)基于反馈的学习:AI根据用户直接反馈调整其响应。例如,如果用户纠正了AI的响应,AI可以使用这个信息来改进未来的响应。2)观察学习:AI观察用户交互并隐性学习。例如,如果用户经常提问相类似的问题或特定方式与AI进行交互,AI可能会调整其响应以更好地适应这些模式。它允许AI代理理解和处理人类语言、多模式设置,解释跨现实上下文,并生成人类用户的响应。随着更多的用户交互和反馈,AI代理的性能通常会持续改进。这个过程通常由人类操作员或开发者监督,确保AI正在适当地学习,而不是发展出偏见或错误的模式。

1.3 Overview

多模态智能体AI(Multimodal Agent AI: MAA)是一类基于理解多模态感知输入在特定环境中生成有效行为的系统。随着大型语言模型(LLMs)和视觉语言模型(VLMs)的出现,许多不同领域的MAA系统已经被开发出来,这些领域包括基础研究和应用。虽然这些研究领域通过与各自领域的传统技术(例如,视觉问题回答和视觉语言导航)整合,迅速发展,但它们都关注如数据收集、基准测试和道德视角等共同的问题。本文将重点关注几个代表性的MAA研究领域,包括多模态、游戏(VR/AR/MR)、机器人技术和医疗保健,并对这些领域讨论的共同问题提供全面的知识。我们希望通过此次研究,理解MAA的基础原理,并推动研究者进一步发展他们的研究。具体的学习成果包括:

  1. 1. MAA概述:深入了解其原理和在现代应用中的作用,为研究者提供全面理解其重要性和用途。

  2. 2. 方法论:通过在游戏、机器人技术和医疗保健等领域的案例研究,详细说明LLMs和VLMs如何提升MAAs的能力。

  3. 3. 性能评估:对相关数据集进行MAAs的评估指导,重点关注其效果和泛化性。

  4. 4. 伦理问题:讨论部署智能体AI的社会影响和道德排行榜,强调负责任的开发实践。

  5. 5. 新兴趋势和未来方向:对每个领域的最新发展进行分类,并讨论未来的发展方向。

无论是计算机系统中的普适代理(GA),或是专业性代理,他们在许多任务中都非常有效。真正有价值的GA,可以自然地与用户进行交互,并泛化至各种情境和模态。我们的目标是培育一个活跃的研究生态系统,营造出整个智能体AI社区的共享身份和目标感。MAA具有广泛应用于各种情境和模态的潜力,包括人类输入。因此,我们相信这个智能体AI领域可以吸引各种研究人员的参与,促成一个充满活力的智能体AI社区和共享的目标。由学界和业界的专家领导,我们期望本文能为所有研究者提供一个包含智能体指导、案例研究、任务会议和实验讨论的互动丰富的学习体验。

本文旨在对智能体AI领域的当前研究提供全面和深入的知识。为此,本文的剩余部分将按照如下顺序组织:首先介绍智能体AI如何从与相关新兴技术的整合中受益,尤其是大型基础模型。接着描述我们提出的训练智能体AI的新范式和框架。然后概述在训练智能体AI中广泛使用的方法。分析和讨论了各种类型的代理。之后介绍智能体AI在游戏、机器人技术和医疗保健中的应用。探讨研究社区开发能够应用于各种模态、领域的多功能智能体AI的努力,并弥合模拟到真实的间隙。然后探讨智能体AI的潜力,它不仅依赖预训练的基础模型,还可以通过与环境和用户的交互进行持续的学习和自我提升。接着介绍我们为训练多模态智能体AI设计的新数据集。最后,讨论智能体AI的伦理问题、限制和我们的论文对社会的影响。

2 Agent AI Integration

在过去的研究中,基于LLMs和VLMs的基础模型在具象化AI领域的表现依然有限,特别是对未知环境或场景的理解、生成、编辑和交互方面。因此,这些限制导致AI代理的产出不尽如人意。

现有以代理为中心的AI建模方法主要关注直接可获取且定义清晰的数据(如世界状态的文本或字符串表示),并通常使用从大规模预训练中学习到的、与领域和环境无关的模式来预测每个环境的行动输出。

在huang2023ark的研究中,我们通过结合大型基础模型,探索了知识引导的协作和交互式场景生成任务,结果显示知识依赖型LLM代理能够改进2D和3D场景理解、生成和编辑的表现,以及其他人类-代理交互(huang2023ark)。通过整合一个AI Agent框架,大型基础模型能够更深入地理解用户输入,形成一个复杂的、自适应的HCI系统。LLM和VLM的出现能力在生成型AI、具象化AI、多模型学习的知识扩充、混合现实生成、文本视觉编辑,以及游戏或机器人任务中的2D/3D模拟的人类交互中都发挥了作用。AI Agent在基础模型的最新进展为解锁具象化代理中的一般智能提供了即将发生的催化剂。大型行动模型,或代理-视觉-语言模型为通用性的具象化系统如在复杂环境中的规划、问题解决和学习提供了新的可能性。AI Agent在元宇宙中的测试进一步迈向AGI的早期版本。

最后,研究者们在元宇宙中进一步测试了AI Agent,并提出了早期AGI版本的思路。

如图所示,这是一个多模型AI Agent,用于跨现实环境中的2D/3D具象化生成和编辑交互。

2.1 Infinite AI agent

研究者们一直在探索AI代理机制的底层功能和局限性。AI代理机器具备以下功能:

1)预测建模:依靠历史数据和趋势,AI代理可以预测可能的结果或提出下一步的建议。比如,它们可以预测文本的继续,问题的答案,机器人的下一步行动,或者情境的解决方案。

2)决策制定:AI代理在一些应用中可以根据所得出的推理进行决策。大多数情况下,代理会根据最有可能完成指定目标的选项进行决策。在像推荐系统这样的AI应用中,代理可以根据对用户喜好的推断来决定推荐哪些产品或内容。

3)处理模糊性:AI代理通常通过基于上下文和训练数据推断最可能的解释来处理模糊的输入。然而,这种能力受到训练数据和算法应用范围的限制。

4)持续改进:虽然一些AI代理具有从新数据和交互中学习的能力,但许多大型语言模型在训练后不会持续更新他们的知识库或内部表示。他们的推理通常仅基于到最后一次训练更新时点的可用数据。

研究者们在下图中展示了增强交互代理与多模态和跨现实融合的新兴机制。一个AI代理需要为每一项新任务收集大量的训练数据,这在许多领域可能会昂贵甚至无法实现。在这项研究中,研究者们开发了一个无限代理,它能够从通用基础模型(如GPT-X,DALL-E)中传递记忆信息到新的领域或情境,以理解,生成,以及在物理或虚拟世界提供交互编辑。

无限代理在机器人学中的一个应用案例是RoboGen。在这项研究中,作者提出了一个自动执行任务提议,环境生成,和技能学习周期的流程。RoboGen是一个努力将大型模型中嵌入的知识应用到机器人学的项目。

2.2 Agent AI with Large Foundation Models

近期的研究表明大型基础模型在生成作为基准数据方面发挥了关键作用,这些数据用于决定在环境制约下代理行为。例如,用基础模型进行机器人操作、学习和导航等应用。具体来说,Black等人利用一种图像编辑模型作为高级规划器,生成未来子目标的图像,从而引导低级政策。对于机器人导航,Shah等人提出了一个系统,该系统使用LLM从文本中识别地标,使用VLM将这些地标与视觉输入关联起来,通过自然语言指令提高导航能力。

人们对生成有条件的人类运动产生了日益浓厚的兴趣,这些运动是对语言和环境因素的反应。已有几种AI系统被提出,生成的运动和动作被特定的语言指令定制,适应各种3D场景。这些研究强调了生成模型在增强AI代理在广泛情境下适应性和反应性方面的能力。

在这些具体的研究实例中,基础模型起着注意力引导的作用。看作是计算机的"思想",他们阅读输入的信息(例如图像或者文本),策划步骤然后生成出一系列的子目标。这些子目标就像是一种行动蓝图,指引着机器或者AI代理执行任务。以机器人导航为例,先由LLM读取自然语言指令,从中提取出有的放矢的地标信息。然后,这些地标信息被VLM与获取到的视觉输入相结合,进行识别和定位,从而使得机器人能够更精确地行动。如果将这个过程类比为驾车旅行,那么基础模型就是GPS导航,指示出一条清晰的前进路径。

对于生成有条件的人类运动,研究者们已经提出了一些AI系统。这些系统能够根据特定的语言指令,生成适应不同环境的人类运动。这个过程就像AI系统是一个卓越的舞蹈指导者,它听取语言指令,然后创作出一系列适合于特定环境的动作,比如在梅林公园跳舞,然后挑选合适的动作和方案,指导人类完成表演。

2.3 Hallucinations

文本生成的代理程序常常容易产生幻觉,这种情况下,生成的文本可能毫无意义,或者对原始内容的忠诚度不足。幻觉可以分为内在性幻觉和外在性幻觉两种类型。内在性幻觉是指生成的文本与原始内容矛盾,而外在性幻觉是指生成的文本包含了原始内容中没有的额外信息。

为了降低语言生成中产生幻觉的频率,有一些有前景的方法,包括使用检索增强生成或者其他通过外部知识检索将自然语言输出接地的方法。总的来说,这些方法试图通过获取更多的原始材料来增强语言生成,并提供机制来检查生成的回答和原始材料之间是否存在矛盾。

在多模态代理系统的背景下,视觉语言模型(VLMs)也被发现存在幻觉的现象。对于基于视觉的语言生成,幻觉产生的一个常见原因是过度依赖训练数据中的物体和视觉提示的共现。那些完全依赖预训练的语言模型或视觉语言模型,并且只使用有限的特定环境微调的AI代理,尤其容易产生幻觉,因为它们依赖预训练模型的内部知识库来生成行为,可能无法准确理解他们所部署的世界状态的动态。

2.4 Biases and Inclusivity

基于大型语言模型(LLMs)或大型多模态模型(LMMs)的人工智能代理存在偏见,这是由于它们的设计和训练过程中固有的多个因素所造成的。在设计这些人工智能代理时,我们必须注意包容所有的最终用户和利益相关者,并理解他们的需求。在人工智能代理的背景下,包容性是指采取的措施和旨在确保代理的响应和交互包容、尊重,并对来自各种背景的大量用户敏感的原则。

  1. 1. 训练数据:基础模型是基于从互联网收集的大量文本数据进行训练的,包括书籍、文章、网站和其他文本来源。这些数据往往反映了人类社会中存在的偏见,模型也可能无意识地学习并复制这些偏见。这包括与种族、性别、种族、宗教和其他个人特征相关的刻板印象、偏见和倾斜观点。特别是,通过在互联网数据和通常仅为英文文本上的训练,模型隐式地学习了西方、受过教育、工业化、富裕和民主(WEIRD)社会的文化规范,而这些社会在互联网上具有极大的影响力。

  2. 2. 历史和文化偏见:人工智能模型是通过从各种内容中采集的大型数据集进行训练的。因此,训练数据经常包含来自各种文化的历史文本或材料。特别是,来自历史来源的训练数据可能包含代表某一特定社会文化规范、态度和偏见的冒犯性或贬损性语言。这可能导致模型延续过时的刻板印象,或者没有充分理解现代文化的变迁和微妙之处。

  3. 3. 语言和上下文限制:语言模型可能在理解和准确表达语言的微妙之处,如讽刺、幽默或文化参照,等方面存在困难。这可能导致在某些情境中误解或产生偏见的回应。此外,纯文本数据未能捕捉到口语的许多方面,可能导致人类对语言的理解和模型对语言的理解之间存在潜在的脱节。

  4. 4. 政策和指导准则:人工智能代理遵循严格的政策和指导准则,以确保公平和包容性。例如,在生成图片时,有规则使人物的描绘多样化,避免与种族、性别和其他特征相关的刻板印象。

  5. 5. 过度泛化:这些模型往往基于在训练数据中看到的模式来生成回应。这可能导致过度泛化,其中模型可能会产生看似刻板印象或对某些群体做出很大假设的回应。

  6. 6. 持续监控和更新:人工智能系统被持续地监控和更新,以解决任何新出现的偏见或包容性问题。用户的反馈和在人工智能伦理学方面的持续研究在这个过程中起着关键的作用。

  7. 7. 主导观点的放大:由于训练数据通常包含更多来自主导文化或群体的内容,模型可能更倾向于这些观点,可能会低估或误报少数群体的观点。

  8. 8. 伦理和包容的设计:人工智能工具应以伦理考虑和包容性为核心原则进行设计。这包括尊重文化差异,提升多样性,确保AI不会延续有害的刻板印象。

  9. 9. 用户指导:用户也被指导如何与AI以一种增进包容性和尊重的方式进行互动。这包括避免可能导致偏见或不适当输出的请求。此外,它可以帮助缓解模型从用户交互中学习有害材料的情况。

尽管采取了这些措施,人工智能代理仍然表现出偏见。人工智能代理的研究和开发的工作正在继续,以进一步减少这些偏见,并增强代理人工智能系统的包容性和公平性。

2.5 Interpretability and Explainability

模仿学习与解耦

在强化学习(RL)或模仿学习(IL)中,智能体通常会经过连续的反馈循环进行训练,起初的数据策略都由随机初始化得到。然而,这种方法在面对不熟悉环境下获取初始奖励时受到阻碍,尤其是在奖励稀少或需要长期交互才能获得的情况下。因此,一个更好的解决方案是使用通过IL训练的无限记忆智能体,这样的智能体可以从专家数据中学习策略,提升探索未知环境的能力,并利用新出现的基础设施更好地享用这些以前看不见的环境空间。这种具有专家特性的智能体可以更好地进行探索,并利用看不见的环境空间。这种AI智能体,可以直接从专家数据中学习策略和新的范式流程。

传统的模仿学习方法是让智能体模仿专家示范的行为来学习策略。然而,直接学习专家策略可能并不总是最好的方法,智能体可能无法很好地推广到未见过的情况。为了解决这个问题,我们提出一个新的学习策略,该策略采用了内在情境提示或一个隐含的奖励函数,这个函数可以捕捉到专家行为的关键特点。这种策略赋予无限记忆智能体一种物理世界行为数据的学习能力,这种数据来自于专家的示范,可以帮助智能体克服现有的模仿学习方法的缺点,如需要大量的专家数据,以及在复杂任务中可能出现的错误。Agent AI的关键思路有两个部分:1) 收集物理世界专家示范的状态-行动对的无限智能体;2) 模仿智能体生成器的虚拟环境。模仿的智能体可以产生类似于专家行为的动作,同时,通过减少专家行为与由学习策略产生的行为之间的差距这一损失函数,智能体学习了一个从状态映射到动作的策略。

解耦与泛化

智能体不依赖于特定任务的奖励函数,而是从专家示范中学习,这为其提供了包含各种任务方面的状态-动作对的多样性集合。智能体通过模仿专家行为来学习一个将状态映射到动作的策略。在模仿学习中,解耦指的是将学习过程与特定任务的奖励函数相分离,使策略能够在不同的任务中进行泛化,而无需显式依赖于特定的任务奖励函数。通过解耦,智能体可以从专家示范中学习,并学习一个能够适应各种情况的策略。解耦使得智能体有能力进行迁移学习,在一个领域中学到的策略可以以最小的调整适应到其他领域。通过学习一个不与特定奖励函数绑定的通用策略,智能体可以利用在一个任务中获得的知识在其他相关任务中表现良好。智能体由于不依赖于特定的奖励函数,因此可以在奖励函数或环境发生变化时,不需要大规模的再训练即可进行适应。这使得学习到的策略在不同环境中更具有强韧性和泛化能力。本文中的解耦泛指学习过程中的两项任务:学习奖励函数和学习最优策略。

泛化与出现性行为

泛化解释了如何从更简单的组件或规则中产生出现性属性或行为。关键想法在于识别控制系统行为的基本元素或规则,如单个神经元或基本算法。然后,通过观察这些简单组件或规则是如何相互交互的。这些组件的交互通常会导致复杂行为的出现,这些行为无法通过单独检查单个组件来预测。在不同复杂性级别上进行泛化,可以使系统学习适用于这些级别的一般原则,从而产生出现性质。这使得系统能够适应新的情况,展示出由更简单的规则产生的更复杂的行为。此外,跨不同复杂性级别进行泛化的能力有助于知识从一个领域转移到另一个领域,这种转移促成在系统适应新环境时出现复杂行为的产生。

2.6 Inference Augmentation

人工智能代理的推理能力在于其解释、预测和基于其训练及输入数据进行响应的能力。虽然这些能力在不断改进和提高,但还是需要注意其局限性以及它们所依赖的训练数据的影响。尤其在大型语言模型的背景下,引用它们根据其训练数据和接收的输入数据进行推理、预测和生成回应的能力。人工智能的推理增强是指使用其他工具、技术或数据来增强AI的自然推理能力,以提高其性能、准确性和实用性。在复杂的决策制定场景或处理细微或专业内容时,这非常重要。下面将特别注意推理调增强的主要来源:

数据丰富化。引入额外的,经常是外部的,数据源可以提供更多的上下文或背景信息,帮助AI代理做出更有根据的推断,尤其是其训练数据可能有限的领域。例如,AI代理可以从对话或文本的上下文中推断出含义。它们分析给定信息,并用其理解用户查询的意图和相关细节。这些模型擅长于识别数据中的模式。他们利用这种能力,基于训练中学到的模式,对语言、用户行为或其他相关现象进行推断。

算法增强。改进AI的底层算法以做出更好的推析。这可能涉及到使用更先进的机器学习模型,整合不同类型的AI(如结合自然语言处理和图像识别),或者更新算法以更好地处理复杂任务。语言模型的推理包括理解和生成人类语言,包括掌握像语气、意图和不同语言结构的微妙之处。

Human-in-the-Loop(HITL)。加入人的输入来增强AI的推断在某些领域特别有用,如伦理考虑、创造性任务或模糊的场景。人可以提供指导,纠正错误或提供代理可能无法自行推断出的见解。

实时反馈集成。使用用户或环境的实时反馈来增强推断是另一种在推断过程中提高性能的有前景的方法。例如,AI可能会根据使用者的实时反馈或在动态系统中改变的条件调整其推荐。或者,如果代理在模拟环境中采取的行动违反了某些规则,可以动态地给予代理反馈以帮助其纠正自身。

跨领域知识转移。利用一个领域的知识或模型来改进另一个领域的推断在生成专业化领域的输出时特别有帮助。例如,为语言翻译开发的技术可能会应用于代码生成,或者从医学诊断中得到的见解可以增强机器的预测性维护。

针对特定用例的定制。根据特定应用或产业来调整AI的推理能力可能包括对AI在专业化的数据集上的训练,或者微调其模型以更好地适应特定任务,如法律分析、医学诊断或金融预测。由于一个领域内的特殊语言或信息与其他领域的语言有很大的对比,因此对代理进行领域特定信息的微调可能有益。

伦理和偏见的考虑。我们应确保增强过程不引入新的偏见或伦理问题。这需要仔细考虑额外数据的来源,或者新的推理增强算法对公平性和透明度的影响。在进行推理,尤其是关于敏感话题时,AI代理必须有时避开伦理考虑,这涉及到避免伤害性的刻板印象,尊重隐私,和确保公平。

持续的学习和适应。定期更新和优化AI的能力,以跟上新的发展、变化的数据环境和演变的用户需求。

总的来说,人工智能代理的推理增强涉及可以通过额外的数据、改进的算法、人的输入和其他技术增强其自然推理能力的方法。根据使用情况,这种增强对处理复杂任务和保证代理输出的准确性经常至关重要。

2.7 Regulation

近期,Agent AI(智能体AI)技术取得了显著进展,并且其应用于实体系统中开启了以更沉浸式、动态且引人入胜的体验与代理人进行交互的新可能性。为了加快进程并简化Agent AI开发中的繁琐工作,研究者们正在计划开发下一代AI赋能的智能体交互流程。研究者们正在开发一个人机协作系统,人和机器可以在其中有意义地交流和互动。该系统可以利用LLM(语言模型)或VLM(视觉语言模型)的对话能力和广泛的应对行为,与人类玩家进行交谈并识别人类的需求。然后,它将根据请求来执行适当的行动以帮助人工玩家。

当为人机协作系统服务时,LLM/VLM常常扮演一个黑匣子的角色,并产生无法预测的输出。这种不确定性在实体设备,如实际操作机器人的情况下可能变得非常重要。解决这个问题的一种方法是通过提示工程把LLM/VLM的焦点限制在一定范围内。例如,在从指示进行机器人任务计划时,将环境信息包含在内的提示已被报道能比仅依赖文本产生更稳定的输出。这个观点得到了Minsky的AI框架理论的支持,该理论认为LLM/VLM需要解决的问题空间是由所给的提示定义的。另一种方法是设计出能让LLM/VLM包含解释性文本的提示,以让用户理解模型的关注焦点或识别内容。此外,在人类的指导下加入一个能用于执行前的验证和修改的更高层次,可以使得在此类指导下工作的系统的操作更为便利。

在以ChatGPT开发的机器人教学系统中,这种方法显得尤为有效(如下图所示)。该系统的工作流程包括了三个步骤:任务规划,其中ChatGPT从指示和环境信息中计划机器人的任务;示范,用户将动作序列以视觉形式展示出来。所有步骤都要经过用户审查,如果有任何步骤失败或有不足,都可以根据需要回顾前面的步骤。此外,还有一个网络应用,用户可以上传演示数据,且可以实现用户与ChatGPT间的互动。

2.8 Agent AI for Emergent Abilities

尽管交互式人工智能代理系统的应用越来越广泛,但大多数提出的方法在面对未曾遇见过的环境或情景时,其泛化性能仍面临挑战。当前的建模实践需要开发者为每个领域准备大量数据集以微调/预训练模型,然而这个过程既昂贵又复杂,如果领域是全新的,这甚至可能是不可能的。为了解决这个问题,研究者们构建了可以利用通用基础模型(如ChatGPT、Dall-E、GPT-4等)知识存储的交互式代理,以生成一个新的应用场景,专门为人和代理之间的协作空间设计。

研究者们发现了一种新的机制,我们称之为"混合现实与知识推理交互",它能在处理现实世界中的复杂任务时,和人进行有效的协作,同时还能探索未知环境以适应虚拟现实。在这种机制下,代理学习到:

i) 横跨多种模态的微观反应:为每个交互任务收集相关个体知识(如理解未见过的场景),这些知识既可以从明确的网络来源获取,也可以通过隐式地从预训练模型的输出中推断出来。

ii) 对现实无知识约束的宏观行为:改进语言和多模态领域中的交互维度和模式,并根据明确定义的角色、特定目标变量、混合现实和语言模型中协作信息的多样性影响,进行操作。

研究者们研究了将各种OpenAI模型组合起来,通过知识引导完成协同场景生成的任务,并展示了交互式代理系统如何能进一步提升我们环境中的大型基础模型的性能。它集成并提高了泛化的深度、意识和可解释性的复杂自适应AI系统。

3 Agent AI Paradigm

本节中,研究者们讨论了一种新的人工智能代理(Agent AI)训练模式和框架。该新框架主要包含以下几个目标:

  1. 1. 利用现有的预训练模型和预训练策略,使我们的代理能够有效地理解重要的模式,例如文本或视觉输入。

  2. 2. 提供足够的长期任务规划能力。

  3. 3. 结合一种能够将学到的知识编码并在后续进行检索的内存框架。

  4. 4. 允许利用环境反馈有效地训练代理,使其学会采取哪些行动。

3.1 LLMs and VLMs

研究者们利用LLM(大型语言模型)或者VLM(视觉语言模型)为智能体(Agent)构建组件如图fig:AgentParadigm所示。尤其是,LLMs已经在任务规划上表现出色,包含了大量的世界知识,并能展示出深厚的逻辑推理能力。另外,像CLIP这种VLM提供了一个与语言对齐的通用视觉编码器,并且拥有零样本视觉识别能力。例如,最先进的开源多模态模型如LLaVA和InstructBLIP,它们依赖冻结的CLIP模型作为视觉编码器。

3.2 Agent Transformer Definition

在AI代理方面,研究者们不再仅仅使用冻结的LLMs和VLMs(语言和视觉模型),他们尝试采用一个综合的转换模型,这个模型可以接受视觉令牌和语言令牌作为输入,这种方式类似于Gato reed2022generalist的工作。除了视觉和语言,模型的输入还增加了第三种类型——代理令牌。从概念上来讲,代理令牌被用来在模型的输入和输出空间中保留一个特定的子空间,用以展示代理行为。在机器人或者游戏玩家的行为中,这可以被视为控制器的输入动作空间。在训练代理使用特定工具,如图像生成或图像编辑模型,或其他API调用时,也会使用到代理令牌。

研究者们可以将代理令牌与视觉和语言令牌进行结合,这样就能为训练多模态AI代理创建一个统一的接口。相比使用大型私有语言模型作为代理,使用代理转换器有以下几个优势:首先,模型可以被轻松地定制到特定的代理任务,这些任务可能通过自然语言难以描述(如控制器输入或其他特定动作)。因此,代理可以通过学习环境互动和领域特定的数据来提高性能。其次,通过获取代理令牌的可能性,更容易理解模型为何采取特定行动或为何不采取。第三,有些领域,如医疗和法律,有严格的数据隐私要求。最后,相对较小的代理转换器可能比大型专有语言模型更为经济。

研究者们提出的代理多模态转换模型,不再是连接冻结的子模块和使用存在的基础模型作为构建块,而是为代理系统提出了一个统一的、端到端的训练范式。虽然在初始化子模块时,研究者们可以像在图fig:LLMAgent中那样使用LLMs和LVMs,但是他们也会利用代理令牌,这是一种专门用于训练模型在特定领域。

3.3 Agent Transformer Creation

研究者们可以采用新的代理人范例,运用LLM和VLM引导代理人,同时利用大型基础模型生成的数据来训练代理人变压器模型,使其学会执行特定目标。在这个过程中,代理人模型被训练为对特定任务和领域有专业和精细的配备。这种方法允许你利用现有的基础模型的学习特征和知识。我们在下面简化了这个过程的概述,分为两个步骤:

定义领域内的目标。为了训练代理人变压器,需要明确定义代理人在每个特定环境中的目标和行动空间。这包括确定代理人需要执行哪些特定任务或动作,并为每个任务或动作分配唯一的代理人标记。此外,可以用来标识任务成功完成的任何自动规则或程序都可以显著增加可用于训练的数据量。否则,将需要用基础模型生成的数据或人类注释的数据来训练模型。在收集到数据并能够评估代理人的性能后,就可以开始持续改进的过程。

持续改进。持续监测模型的性能和收集反馈是这个过程中的关键步骤。反馈应该用于进一步的微调和更新。也很重要的是要确保模型不会继续传播偏见或不道德的结果。这需要对训练数据进行仔细的检查,定期检查输出中的偏见,如果需要的话,训练模型识别和避免偏见。一旦模型达到满意的性能,就可以将其部署到预期的应用中。持续监测仍然很重要,以确保模型如预期那样执行,并进行必要的调整。

4 Agent AI Learning

4.1 Strategy and Mechanism

这一策略是以一种主动收集用户反馈、行动信息、用于生成和交互的有用知识的训练过的代理,来扩展在不同领域的交互式AI的范式。有时候,不需要再次训练LLM/VLM模型,只需在测试时为代理提供改进的上下文提示,就能提高它们的性能。

另一方面,这一策略总是涉及到借助三重系统的知识/推理/常识/推断的交互式建模,其中一个系统负责从多模型查询中获取知识,第二个系统负责从相关代理中进行交互式生成,最后一个系统则负责以改进方式进行有益的自我监督训练或强化学习或模仿学习的预训练。

这里的三重系统就像三个专家团队,每个团队都有自己的专长和任务:一个团队负责从海量的信息中寻找并提取有用的知识,这就像是在不断更新的图书馆里找到我们需要的书;第二个团队负责根据第一个团队找到的知识进行产品的创建和优化,就像是用找到的书写一篇论文;最后一个团队则负责让AI系统通过学习进步,就像是用论文获取好成绩,然后反过来优化写作技巧和知识。

4.1.1 Reinforcement Learning (RL)

采用强化学习(RL)来训练具备智能行为的交互式代理者有着丰富的历史。强化学习是一种根据其行动产生的奖励(或惩罚)学习状态和行动之间最优关系的方法。其最核心的应用广泛,如机器人技术等,但要克服几个困难:奖励设计,数据收集与效率以及长期步骤。

奖励设计是政策学习效率的一个重要因素。设计奖励函数不仅需要了解RL算法,更需要深入了解任务的本质,因此通常需要根据专家的经验来调整函数。近期的一些研究开始探索了使用LLM/VLM模型设计奖励函数。

在数据收集和效率方面,由于RL基于策略学习具有探索性,需要大量的数据。特别是在对长序列或复杂动作进行处理时,这种需求尤其明显,因为这些场景要求更加细致的决策和从更广泛情况中学习。因此,新近的研究致力于增强数据生成以支持策略学习,同时,将这些模型整合到奖励函数中可提高策略学习方面,有些研究已经支持应用。

对于长程步骤来说,随着动作序列长度增加,RL将变得更具挑战性。这是由于动作和奖励之间关系的模糊性(即信用分配问题)以及要探索的状态数量增加,需要大量的时间和数据。解决长程和复杂任务的一个典型方法是将它们拆分为一系列子目标,并应用预训练的策略来解决每个子目标。

最近的研究越来越多地采用一种方法,即使用LLM执行高级任务规划,而将低级控制用RL-based计策略解决。LLM的先进功能使它们能够有效地将甚至是抽象的指令分解为子目标,从而增强了机器人系统中的语言理解能力。

4.1.2 Imitation Learning (IL)

强化学习(RL)的目标是基于探索性行为和通过与环境互动来最大化奖励来训练一个策略,而模仿学习(IL)则寻求利用专家数据来模仿经验丰富的代理或专家的行动。以机器人技术为例,基于IL的主要框架之一就是行为克隆(BC)。BC是一种让机器人通过直接复制来模仿专家行动的方法。在这个方法中,记录了专家在执行特定任务时的行动,然后训练机器人在类似的情况下复制这些行动。最近基于BC的方法常常结合LLM/VLM技术,从而能够实现更进阶的端对端模型。例如,Brohan等人提出了RT-1brohan2022rt和RT-2brohan2023rt,这些以图像和语言为输入,输出基座和臂部动作序列的变压器模型。据报道,这些模型由于在大量训练数据上的训练,显示出了高度的泛化性能。

要以第一性原理来总结,RL和IL的区别在于RL是通过与环境交互,并以奖励为导向进行学习。而IL则是通过观察和复制专家的行为来学习。这就像RL是一个人独立完成任务并从错误中学习,而IL像是复制专家的行为模式进行学习。BC是IL的一种极端形式,通过复制专家的精确动作来学习,这就像一个手工艺制作者复制一个细致的工艺流程一样。最新的BC方法则更进一步地引入了LLM/VLM技术,以此实现更先进的端对端模型,就像是一个艺术家不仅复制大师的画作,还复制了他们的创作过程。

4.1.3 Traditional RGB

研究者们于多年来一直对利用图像输入来学习智能代理行为表现出巨大兴趣。然而,使用RGB输入的固有挑战在于"维度的诅咒"。为了解决这个问题,研究者们或者采用更多的数据,或者引入归纳偏差到模型设计中以提高样本效率。特别是,作者将3D结构融入到模型架构中进行操作。对于机器人导航,作者使用地图作为表示。地图可以通过一个聚合所有之前RGB输入的神经网络或通过3D重建方法如神经辐射场来学习得到。

为了获得更多的数据,研究者们合成了使用图形模拟器的合成数据,试图关闭模拟到真实的差距。最近,有一些共同努力致力于策划大规模数据集,目的是解决数据稀缺问题。另一方面,为了提高样本复杂性,数据增强技术也得到了广泛的研究。

首先,让我们理解"维度的诅咒",这个概念是指,当我们考虑一个问题的维度(特征)数量增加时,数据的量需要以指数级增长,才能有效地覆盖所有的可能性。可以想象,对于一款以RGB输入的游戏来说,尝试遍历所有可能的图像输入将是非常耗时和低效的。

在此基础上,研究者们的一种解决方案是获得更多的数据。例如,他们使用图形模拟器生成合成数据,并尝试缩小模拟器生成的数据与真实世界数据之间的差距,这个过程被称为"模拟到真实的差距"。同时,他们也在尽力策划大规模数据集,以解决数据稀缺问题。

另一种解决方案是改进样本的复杂性。他们通过引入归纳偏差到模型设计中以提高样本效率,如将3D结构融入到模型架构中进行操作。同时,数据增强作为另一种提高样本复杂性的方法也得到了广泛的研究。

4.1.4 In-context Learning

在大型语言模型如GPT-3(brown2020language, min2022rethinking)的推动下,情境学习被证明是解决自然语言处理(NLP)任务的有效方法。将少量示例融入到语言模型的提示中,即使用少量语境提示,被视为是让模型在自然语言处理任务中具备情境化输出的有效方式。例如,对于情境示范,研究者们发现,示例的多样性和质量可能会提高模型输出的质量(an2023context, dong2022survey)。

在多模态基础模型的情境中,像Flamingo和BLIP-2(alayrac2022flamingo, li2023blip)这样的模型被证实在只给予少量示例的情况下,能有效地完成各种视觉理解任务。这可以类比为,就像人类在只看过几次的情况下,就能够理解和识别物体一样。

而且,当采取某些行动时,通过将环境特定的反馈融入其中,可以进一步改善环境中的实体的情境学习(gong2023mindagent)。这可以理解为,当某个行动产生某个结果时,环境会给出反馈。实体记住这个反馈,从而改善自身行为,这就是情境学习的一种改进方式。

4.1.5 Optimization in the Agent System

优化智能体系统可分为空间优化和时间优化两个方面。空间优化关注的是智能体如何在实体空间中操作以执行任务,包括机器人之间的协调、资源分配和保持有序空间。

为了有效地优化大量并行操作的智能体AI系统,研究者们之前的工作主要集中在使用大批量强化学习。由于针对特定任务的多主体互动数据集很少,自我对弈强化学习使得一组智能体得以随着时间推移而进步。但是,这也可能导致产生非常脆弱的智能体,这些智能体只能在自我对弈的环境下工作,不能与人类或其他独立的智能体一起工作,因为它们过度适应了自我对弈的训练模式。为了解决这个问题,研究者们可以选择发现一个多样化的约定集和训练一个能够理解各种约定的智能体。基础模型可以进一步帮助智能体建立与人类或其他独立智能体的约定,使得新的智能体能够顺利地协调。

另一方面,时间优化关注的是智能体如何随着时间的推移执行任务。这涵盖了任务计划、序列和时间线效率。例如,优化机器人手臂的轨迹就是连续任务间高效优化运动的一个例子。在任务调度层面,如LLM-DP和ReAct这样的方法被提出来通过互动式地考虑环境因素来解决高效任务计划的问题。

4.2 Agent Systems (zero-shot and few-shot level)

4.2.1 Agent Modules

研究者们深入探索了代理人范例,发展了以LLMs或VLMs为基础的Agent AI "模块",它是交互式多模态代理人的体现。他们最初的Agent模块易于训练和在上下文中学习,并采用了极简主义的设计,以显示代理人有效地安排和协调的能力。他们还探索了最初基于提示的记忆技巧,这种技巧可以更好地进行规划,并指导领域内未来的行动方法。

以“MindAgent"基础设施为例,它主要包括五个模块:1)环境感知和任务规划,2)代理学习,3)记忆,4)一般代理行为预测,以及5)认知(如图fig:AgentParadigm所示)。这就好像是一个人的大脑,每个模块都扮演着特定的角色,环境感知和任务规划就是人的眼睛,帮助我们观察环境和设定目标,代理学习就是学习过程,记忆储存了我们的知识,行为预测就像是我们基于知识和经验对未来的预测,而认知则是对所有输入和输出的全面理解。

4.2.2 Agent Infrastructure

基于代理人的人工智能(Agent-based AI)在娱乐、研究和工业等领域迅速发展,如同许多种类的生物群落在各自的领域中繁荣壮大。大型基础模型的开发显著地提升了代理人AI系统的性能,但是,高质量数据集的创建以及费用的增长已经限制了在这个领域中的创新。如同高昂的维护费用制约了生物种群数量的增长。

在微软,通过使用先进的硬件、多元的数据源和强大的软件库,高质量代理人基础设施的建设,使得多模态代理人副驾驶(multi-modal agent copilots)受益颇多。随着微软继续推动代理人技术的界限,AI代理人平台有望在未来几年继续在多模态智能领域占据主导地位。

然而,代理人AI的交互仍然是一个需要结合多项技能的复杂过程,如同高水平的烹饪需要掌握各种烹饪技法。大型生成AI模型的先进技术有可能大大降低当前互动内容的高昂成本和所需时间,这不仅对大型工作室有利,也能赋能更多的独立内容创作者设计出超过当前能力的高质量体验。

目前,多模态代理人中的人机交互系统主要是基于规则的,它们对人类/用户的反应有一定的智能化行为,也一定程度上掌握了网络知识,如同宠物狗对主人指令的反应和记忆。然而,它们的交互往往受到制定系统特定行为的软件开发成本的限制。此外,现有模型并未设计为在用户无法完成特定任务时帮助其实现目标。因此,我们需要一个能够分析用户行为并在需要时提供恰当支持的代理人AI系统基础设施。如同我们需要一个能随时帮助我们解决难题的秘书或私人助理。

4.3 Agentic Foundation Models (pretraining and finetune level)

预训练的基础模型广泛适用于各种不同的用例,为各种应用开发定制解决方案提供了巨大的优势,绕过了针对每个特定任务需求大量标签数据集的问题。

在导航领域,一个值得注意的例子是LM-Nav系统,该系统采用了一种新颖的方法,结合了GPT-3和CLIP。该方法有效地使用语言模型生成的文本地标,并将其锚定在用于导航的机器人获取的图像中。这种方法展示了文本与视觉数据的无缝融合,大大提高了机器人导航的能力,同时保持了广泛的适用性。

在机器人操作中,一些研究建议使用现成的LLM(例如ChatGPT)并使用开放词汇的对象检测器。LLM和先进的对象检测器(例如Detic)的结合有助于理解人类的指令,并将文本信息在实际场景中定位。此外,最新的进展显示出了使用提示工程与像GPT-4V(ision)这样的先进多模态模型的潜力。这种技术为多模态任务规划打开了新的道路,突出了预训练模型在各种情况下的多样性和适应性。

以一种类比的方式来理解,预训练模型就像是一个经验丰富的"全能工人",他们可以适应各种工作环境,不同的任务只需要给出相应的指示,就能够利用他们的经验来完成。正是由于这种广泛的适用性和多样性,预训练模型在实际应用中展现出了极大的优势和价值。

  • 23
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
《大模型技术进化论:多模态大模型综述》是一篇系统阐述多模态大模型技术进化的综述性论文。多模态大模型是指通过整合多种不同的数据形式和类型,构建出更复杂、更完整的模型,以提高模型的表现和性能。 该论文首先介绍了大模型技术的背景和发展动力。随着数据规模的快速增长和多源数据的丰富性,传统的单一模态模型已经面临着一系列的挑战,无法完全适应现实世界中的复杂情况。因此,多模态大模型的出现成为了解决这一问题的有效手段。 随后,论文针对多模态大模型的构建过程进行了详细的讨论。首先介绍了多模态数据的采集与预处理方法,包括各种传感器和设备的应用,以及数据对齐和归一化等技术。然后,论文详细介绍了多模态特征提取、融合和表示学习方法,包括传统的特征提取算法和深度学习方法等。 接着,论文重点讨论了多模态大模型在各个领域的应用。例如,在计算机视觉领域多模态大模型能够通过融合图像和文本数据,实现更准确的图像分类和目标检测。在自然语言处理领域多模态大模型能够通过融合文本和语音数据,实现更准确的情感分析和语音识别。此外,还介绍了多模态大模型在医学、金融、推荐系统等领域的应用。 最后,论文总结了多模态大模型技术的优势和挑战,并展望了未来的研究方向。多模态大模型技术的优势在于可以综合利用不同数据源的信息,提高模型的鲁棒性和泛化能力。然而,多模态大模型技术面临着数据集规模和计算复杂度的挑战,需要进一步研究和改进相应的算法和技术。 综上所述,《大模型技术进化论:多模态大模型综述》通过系统的介绍了多模态大模型技术的构建过程、应用领域和发展前景,对相关研究和应用人员具有重要的参考价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

之乎者也·

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值