AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(二)

本文来源公众号“AI生成未来”,仅用于学术分享,侵权删,干货满满。

原文链接:智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术

【说明】文章略长,干货满满,分为4个文章。

AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(一)-CSDN博客

4. 智能体人工智能学习

4.1 策略与机制

不同领域的交互式人工智能策略,扩展了调用大型基础模型的范式,训练有素的智能体会积极收集用户反馈、动作信息、用于生成和交互的有用知识。有时,大语言模型/视觉语言模型无需再次训练,我们可以通过在测试时为智能体提供改进的上下文提示来提高其性能。另一方面,它总是涉及通过三重系统的组合进行知识/推理/常识/推断交互式建模—— 一个系统从多模态查询中执行知识检索,第二个系统从相关智能体执行交互式生成,最后一个系统通过强化学习或改进的模仿学习方法,进行新的、有信息的自监督训练或预训练。

4.1.1 强化学习(RL)

利用强化学习来训练表现出智能行为的交互式智能体有着悠久的历史。强化学习是一种基于因动作而获得的奖励(或惩罚)来学习状态与动作之间最优关系的方法。强化学习是一个高度可扩展的框架,已应用于众多领域,包括机器人技术。然而,它通常面临一些挑战,而大语言模型/视觉语言模型已显示出缓解或克服其中一些困难的潜力:

  1. 1. 奖励设计:策略学习的效率在很大程度上取决于奖励函数的设计。设计奖励函数不仅需要了解强化学习算法,还需要深入理解任务的本质,因此通常需要根据专家经验来构建函数。一些研究探索了使用大语言模型/视觉语言模型来设计奖励函数(Yu等人,2023a;Katara等人,2023;Ma等人,2023)。

  2. 2. 数据收集与效率:鉴于其探索性的本质,基于强化学习的策略学习需要大量的数据(Padalkar等人,2023)。当策略涉及管理长序列或整合复杂动作时,对大量数据的需求尤为明显。这是因为这些场景需要更细致的决策,并从更广泛的情况中学习。最近的研究致力于加强数据生成以支持策略学习(Kumar等人,2023;Du等人,2023)。此外,在一些研究中,这些模型已被整合到奖励函数中,以改进策略学习(Sontakke等人,2023)。与此同时,另一系列研究专注于使用视觉语言模型(Tang等人,2023;Li等人,2023d)和大语言模型(Shi等人,2023)在学习过程中实现参数效率。

  3. 3. 长时程步骤:与数据效率问题相关,随着动作序列长度的增加,强化学习变得更具挑战性。这是由于动作与奖励之间关系的模糊性(称为信用分配问题),以及需要探索的状态数量增加,这需要大量的时间和数据。对于长期和复杂的任务,一种典型的方法是将它们分解为一系列子目标,并应用预训练的策略来解决每个子目标(例如,Takamatsu等人,2022)。这个想法属于称为任务和运动规划(TAMP)的框架(Garrett等人,2021)。任务和运动规划由两个主要部分组成:任务规划,即确定高级动作的序列;运动规划,即找到物理上一致、无碰撞的轨迹以实现任务计划的目标。

大语言模型非常适合任务和运动规划,最近的研究通常采用一种方法,即使用大语言模型执行高级任务规划,而低级控制则由基于强化学习的策略来处理(Xu等人,2023;Sun等人,2023a;Li等人,2023b;Parakh等人,2023)。大语言模型的先进能力使其能够有效地将即使是抽象的指令分解为子目标(Wake等人,2023c),有助于增强机器人系统中的语言理解能力。

4.1.2 模仿学习(IL)

强化学习旨在基于探索性的行为,并通过与环境的交互来最大化奖励,从而训练策略;而模仿学习则试图利用专家数据来模仿经验丰富的智能体或专家的动作。例如,在机器人技术中,基于模仿学习的一个主要框架是行为克隆(BC)。行为克隆是一种方法,其中机器人通过直接复制专家的动作来进行训练。在这种方法中,记录专家执行特定任务时的动作,机器人被训练在类似情况下重现这些动作。最近基于行为克隆的方法通常结合大语言模型/视觉语言模型的技术,实现更先进的端到端模型。例如,Brohan等人提出了RT-1(Brohan等人,2022)和RT-2(Brohan等人,2023),这是基于Transformer的模型,将一系列图像和语言作为输入,输出机器人底座和机械臂的动作序列。据报道,由于在大量训练数据上进行训练,这些模型显示出较高的泛化性能。

4.1.3 传统RGB

利用图像输入学习智能体行为多年来一直备受关注(Mnih等人,2015)。使用RGB输入的固有挑战是维度诅咒。为了解决这个问题,研究人员要么使用更多的数据(Jang等人,2022;Ha等人,2023),要么在模型设计中引入归纳偏差以提高样本效率。特别是,作者们将3D结构纳入模型架构用于操作任务(Zeng等人,2021;Shridhar等人,2023;Goyal等人,2023;James和Davison,2022)。对于机器人导航,作者们(Chaplot等人,2020a,b)利用地图作为表示。地图可以通过神经网络聚合所有先前的RGB输入来学习,或者通过像神经辐射场(Rosinol等人,2022)这样的3D重建方法来获取。

为了获得更多数据,研究人员使用图形模拟器合成数据(Mu等人,2021;Gong等人,2023b),并试图缩小模拟到现实的差距(Tobin等人,2017;Sadeghi和Levine,2016;Peng等人,2018)。最近,人们做出了一些共同努力,策划大规模数据集以解决数据稀缺问题(Padalkar等人,2023;Brohan等人,2023)。另一方面,为了提高样本复杂性,数据增强技术也得到了广泛研究(Zeng等人,2021;Rao等人,2020;Haarnoja等人,2023;Lifshitz等人,2023)。

4.1.4 上下文学习

随着像GPT-3这样的大语言模型的出现,上下文学习被证明是解决自然语言处理任务的有效方法(Brown等人,2020;Min等人,2022)。少样本提示被视为一种有效的方式,通过在大语言模型提示的上下文中提供任务示例,使模型输出在各种自然语言处理任务中具有上下文相关性。上下文演示中示例的多样性和质量等因素,可能会提高模型输出的质量(An等人,2023;Dong等人,2022)。在多模态基础模型的背景下,像Flamingo和BLIP-2(Alayrac等人,2022;Li等人,2023c)这样的模型,在仅给出少量示例时,已被证明在各种视觉理解任务中是有效的。通过在采取某些行动时纳入特定环境的反馈,可以进一步改进智能体在环境中的上下文学习(Gong等人,2023a)。

4.1.5 智能体系统中的优化

智能体系统的优化可以分为空间和时间两个方面。空间优化考虑智能体如何在物理空间中运作以执行任务,这包括机器人之间的协调、资源分配以及保持空间的有序性。

为了有效地优化智能体人工智能系统,特别是有大量智能体并行行动的系统,先前的工作主要集中在使用大批量强化学习(Shacklett等人,2023)。由于特定任务的多智能体交互数据集很少,自博弈强化学习使一组智能体能够随着时间的推移而改进。然而,这也可能导致智能体非常脆弱,只能在自博弈环境中工作,而无法与人类或其他独立智能体协作,因为它们过度拟合了自博弈训练范式。为了解决这个问题,我们可以发现一组多样化的惯例(Cui等人,2023;Sarkar等人,2023),并训练一个了解广泛惯例的智能体。基础模型可以进一步帮助与人类或其他独立智能体建立惯例,实现与新智能体的顺利协作。

另一方面,时间优化关注智能体如何随着时间执行任务,这包括任务调度、排序和时间线效率。例如,优化机器人手臂的轨迹就是在连续任务之间有效优化运动的一个例子(Zhou等人,2023c)。在任务调度层面,像LLM-DP(Dagan等人,2023)和ReAct(Yao等人,2023a)这样的方法,已经被提出来通过交互式地纳入环境因素来解决高效任务规划问题。

4.2 智能体系统(零样本和少样本水平)

4.2.1 智能体模块

我们对智能体范式的探索,涉及使用大语言模型或视觉语言模型开发用于交互式多模态智能体的智能体人工智能 “模块” 。我们最初的智能体模块便于训练或上下文学习,并采用极简主义设计,以展示智能体有效安排和协调的能力。我们还探索了基于提示的初始记忆技术,该技术有助于更好地规划,并为该领域内的未来行动提供指导。例如,我们的 “MindAgent” 基础设施由5个主要模块组成:1)带有任务规划的环境感知;2)智能体学习;3)记忆;4)通用智能体动作预测;5)认知,如图5所示。

4.2.2 智能体基础设施

基于智能体的人工智能在娱乐、研究和工业领域是一个庞大且快速发展的社区。大型基础模型的发展显著提高了智能体人工智能系统的性能。然而,以这种方式创建智能体受到创建高质量数据集所需的不断增加的工作量和总体成本的限制。在微软,构建高质量的智能体基础设施,通过使用先进的硬件、多样化的数据来源和强大的软件库,对多模态智能体协作者产生了重大影响。随着微软不断推动智能体技术的边界,人工智能智能体平台在未来几年有望继续成为多模态智能领域的主导力量。尽管如此,目前智能体人工智能交互仍然是一个复杂的过程,需要多种技能的结合。最近大型生成式人工智能模型领域的进展,有可能大大降低目前交互式内容所需的高昂成本和时间,这不仅对大型工作室有利,也使较小的独立内容创作者能够设计出超出他们目前能力的高质量体验。目前多模态智能体内部的人机交互系统主要是基于规则的。它们在响应用户动作时具有一定的智能行为,并在一定程度上拥有网络知识。然而,这些交互通常受到软件开发成本的限制,使得系统难以实现特定的行为。此外,当前的模型在用户无法完成特定任务的情况下,并没有被设计用来帮助用户实现目标。因此,需要一个智能体人工智能系统基础设施来分析用户行为,并在需要时提供适当的支持。

4.3 智能体基础模型(预训练和微调水平)

使用预训练的基础模型在其广泛的适用性方面具有显著优势,可用于各种不同的用例。这些模型的集成使得为各种应用开发定制解决方案成为可能,避免了为每个特定任务需要大量标记数据集的情况。

在导航领域的一个显著例子是LM-Nav系统(Shah等人,2023a),它以一种新颖的方式结合了GPT-3和CLIP。它有效地使用语言模型生成的文本地标,并将其锚定在机器人获取的图像中用于导航。这种方法展示了文本和视觉数据的无缝融合,显著增强了机器人导航能力,同时保持了广泛的适用性。

在机器人操作方面,多项研究建议使用现成的大语言模型(如ChatGPT),同时搭配开源词汇对象检测器。大语言模型与先进的对象检测器(如Detic(Zhou等人,2022))的结合,有助于理解人类指令,同时将文本信息与场景信息相结合(Parakh等人,2023)。此外,最新进展展示了使用提示工程与先进的多模态模型(如GPT-4V(ision) )的潜力(Wake等人,2023b)。这项技术为多模态任务规划开辟了道路,突显了预训练模型在各种场景中的多功能性和适应性。

5. 智能体人工智能分类

5.1 通用智能体领域

基于计算机的行动和通用智能体(GAs)在许多任务中都很有用。大型基础模型和交互式人工智能领域的最新进展为通用智能体带来了新功能。然而,要使通用智能体真正对用户有价值,它必须易于自然交互,并且能够在广泛的上下文和模态中进行泛化。我们在第6节中对智能体基础人工智能进行了高质量的扩展,特别是在与这些主题相关的领域:

多模态智能体人工智能(MMA)是一个新兴的论坛,供我们的研究和行业社区相互交流,并与更广泛的智能体人工智能研究和技术社区互动。大型基础模型和交互式人工智能领域的最新进展为通用智能体带来了新功能,例如在受限环境中预测用户行动和进行任务规划(例如MindAgent(Gong等人,2023a)、细粒度多模态视频理解(Luo等人,2022)、机器人技术(Ahn等人,2022b;Brohan等人,2023)),或者为用户提供结合知识反馈的聊天伙伴(例如医疗系统的网站客户支持(Peng等人,2023))。以下展示了更详细的代表性作品和最新的代表性作品。我们希望讨论我们对多模态智能体人工智能未来的愿景,并激励未来的研究人员在这个领域开展工作。本文和我们的论坛涵盖以下主要主题,但不仅限于这些:

  • • 主要主题:多模态智能体人工智能、通用智能体人工智能

  • • 次要主题:具身智能体、行动智能体、基于语言的智能体、视觉与语言智能体、知识与推理智能体、用于游戏的智能体、机器人智能体、医疗保健智能体等

  • • 扩展主题:视觉导航、模拟环境、重新排列、智能体基础模型、虚拟现实/增强现实/混合现实、具身视觉与语言

接下来,我们列出具体的代表性智能体类别如下:

5.2 具身智能体

我们的生物大脑存在于身体之中,而我们的身体在不断变化的世界中移动。具身人工智能的目标是创建诸如机器人之类的智能体,这些智能体学习以创造性的方式解决需要与环境交互的挑战性任务。尽管这是一项重大挑战,但深度学习的重要进展以及像ImageNet这样的大规模数据集的日益普及,使得在以前被认为难以解决的各种人工智能任务上实现超人性能成为可能。计算机视觉、语音识别和自然语言处理在诸如语言翻译和图像分类等被动输入 - 输出任务中经历了变革性的革命,而强化学习在诸如游戏等交互式任务中同样取得了世界级的性能。这些进展极大地推动了具身人工智能的发展,使越来越多的用户能够在朝着与机器交互的智能体方向上取得快速进展。

5.2.1 行动智能体

行动智能体是指需要在模拟物理环境或现实世界中执行物理动作的智能体。特别地,它们需要积极地与环境进行互动。我们根据其应用领域将行动智能体大致分为两类:游戏人工智能和机器人技术。

在游戏人工智能中,智能体将与游戏环境和其他独立实体进行交互。在这些场景中,自然语言可以实现智能体与人类之间的顺畅沟通。根据游戏的不同,可能存在特定的任务需要完成,从而提供真实的奖励信号。例如,在竞争性的外交游戏中,使用人类对话数据以及强化学习的行动策略来训练语言模型,可以实现人类水平的游戏表现(Meta基础人工智能研究(FAIR)外交团队等人,2022)。

也存在一些场景,其中智能体作为城镇中的普通居民(Park等人,2023a),而无需尝试优化特定目标。基础模型在这些场景中很有用,因为它们可以通过模仿人类行为来模拟更自然的交互。当配备外部记忆时,它们可以生成令人信服的智能体,这些智能体可以进行对话、制定日常日程、建立关系并拥有虚拟生活。

5.2.2 交互式智能体

交互式智能体指的是能够与世界进行交互的智能体,这是比行动智能体更广泛的一类智能体。它们的交互形式不一定需要物理动作,可能包括向用户传达信息或修改环境。例如,一个具身交互式智能体可以通过对话回答用户关于某个主题的问题,或者像聊天机器人一样帮助用户解析现有信息。通过扩展智能体的能力以包括信息共享,智能体人工智能的核心设计和算法可以有效地应用于一系列应用中,如诊断(Lee等人,2023)和知识检索(Peng等人,2023)智能体。

5.3 模拟和环境智能体

人工智能智能体学习如何在环境中行动的一种有效方法是通过与环境的试错交互来积累经验。一种代表性的方法是强化学习,它需要大量的失败经验来训练智能体。虽然存在使用物理智能体的方法(Kalashnikov等人,2018),但使用物理智能体既耗时又昂贵。此外,在实际环境中进行训练往往不可行,因为在实际环境中的失败可能会带来危险(例如自动驾驶、水下航行器)。因此,使用模拟器来学习策略是一种常见的方法。

许多模拟平台已被提出用于具身人工智能的研究,涵盖从导航(Tsoi等人,2022;Deitke等人,2020;Kolve等人,2017)到对象操作(Wang等人,2023d;Mees等人,2022;Yang等人,2023a;Ehsani等人,2021)等领域。一个例子是Habitat(Savva等人,2019;Szot等人,2021),它提供了一个3D室内环境,人类和机器人智能体可以在其中执行各种任务,如导航、指令跟随和问答。另一个具有代表性的模拟平台是VirtualHome(Puig等人,2018),它支持人类化身在3D室内环境中进行对象操作。在游戏领域,Carroll等人引入了 “Overcooked-AI”,这是一个用于研究人类与人工智能之间协作任务的基准环境(Carroll等人,2019)。类似地,一些工作旨在纳入真实的人类干预,超越智能体与环境之间的交互重点(Puig等人,2023;Li等人,2021a;Srivastava等人,2022)。这些模拟器有助于在涉及智能体和机器人交互的实际场景中学习策略,以及利用人类示范动作的基于模仿学习的策略学习。

在某些场景中,学习策略的过程可能需要在模拟器中集成特定的功能。例如,在学习基于图像的策略时,通常需要逼真的渲染来促进对现实环境的适应性(Mittal等人,2023;Zhong等人,2023)。使用逼真的渲染引擎可以有效地生成反映各种条件(如光照环境)的图像。此外,采用物理引擎的模拟器对于模拟与物体的物理交互是必要的(Liu和Negrut,2021)。在模拟中集成物理引擎已被证明有助于获取适用于现实世界场景的技能(Saito等人,2023)。

5.4 生成式智能体

大型生成式人工智能模型领域的最新进展,有可能大大降低目前交互式内容所需的高昂成本和时间,这对大型游戏工作室以及较小的独立工作室都有益处,使它们能够创造出超出当前能力的高质量体验。此外,将大型人工智能模型嵌入沙盒环境中,将允许用户创作自己的体验,并以目前无法实现的方式表达他们的创造力。

这类智能体的目标不仅限于为场景添加交互式3D内容,还包括:

  • • 为对象添加任意行为和交互规则,允许用户在极少提示的情况下创建自己的虚拟现实规则。

  • • 通过使用多模态GPT4-v模型以及其他涉及视觉人工智能模型的模型链,根据纸上的草图生成整个关卡的几何形状。

  • • 使用扩散模型对场景中的内容进行重新纹理处理。

  • • 根据简单的用户提示创建自定义着色器和视觉特效。

短期内的一个潜在应用是,通过虚拟现实创建故事板/原型工具,使单个用户能够以比目前快一个数量级的速度创建体验/游戏的粗略(但功能完备)草图。然后,可以使用这些工具对该原型进行扩展和完善。

5.4.1 增强现实/虚拟现实/混合现实智能体

目前,增强现实/虚拟现实/混合现实(统称为XR)场景需要熟练的艺术家和动画师来创建用于模拟虚拟世界中交互的角色、环境和对象。这是一个成本高昂的过程,涉及概念艺术、3D建模、纹理处理、绑定和动画制作。XR智能体可以通过促进创作者之间的交互以及构建工具来帮助构建最终的虚拟环境,从而在这个过程中提供帮助。

我们早期的实验已经证明,GPT模型可以在Unity引擎中以少样本方式使用(无需任何额外的微调),以调用引擎特定的方法、使用API调用从互联网下载3D模型并将其放置在场景中,以及为它们分配行为和动画的状态树(Huang等人,2023a)。这种行为可能是由于在使用Unity的开源游戏存储库中存在类似代码而产生的。因此,GPT模型能够根据简单的用户提示在场景中加载许多对象,从而构建丰富的视觉场景。

这类智能体的目标是构建一个平台和一组工具,在大型人工智能模型(包括GPT系列模型以及扩散图像模型)和渲染引擎之间提供高效的接口。我们在这里探索两条主要途径:

  • • 将大型模型集成到智能体基础设施的各种编辑器工具中,从而显著加快开发速度。

  • • 通过生成遵循用户指令的代码并在运行时进行编译,在用户体验中控制渲染引擎,这可能允许用户以任意方式编辑他们正在交互的虚拟现实/模拟环境,甚至引入新的智能体机制。

引入专注于XR场景的人工智能协作者对XR创作者很有用,他们可以使用该协作者来完成繁琐的任务,如提供简单的资产或编写代码模板,使创作者能够专注于他们的创意愿景并快速迭代想法。

此外,智能体可以帮助用户通过添加新资产、改变环境动态或构建新设置来交互式地修改环境。这种在运行时的动态生成也可以由创作者指定,使用户的体验感觉新鲜并随着时间不断发展。

5.5 知识和逻辑推理智能体

推理和应用知识的能力是人类认知的一个决定性特征,在诸如逻辑演绎和理解心理理论等复杂任务中尤为明显。对知识进行推理可确保人工智能的响应和行动与已知事实和逻辑原则一致。这种一致性是在人工智能系统中维持信任和可靠性的关键机制,特别是在医疗诊断或法律分析等关键应用中。在这里,我们介绍结合知识与推理,以解决智能和推理特定方面的智能体。

5.5.1 知识智能体

知识智能体在两个方向上对其获取的知识系统进行推理:隐式和显式。隐式知识通常是像GPT系列这样的大规模语言模型(Brown等人,2020;OpenAI,2023)在经过大量文本数据训练后所包含的知识。这些模型可以生成给人理解印象的响应,因为它们利用了在训练过程中隐式学习到的模式和信息。相反,显式知识是结构化的,可以直接查询,例如在知识库或数据库中找到的信息,传统上通过引用可验证的外部资源来增强人工智能的推理能力。

尽管语言模型取得了进展,但它们的隐式知识是静态的,并且随着世界的发展而过时(Lewis等人,2020;Peng等人,2023)。这种限制使得有必要集成不断更新的显式知识源,以确保人工智能系统能够提供准确和最新的响应。隐式和显式知识的融合使人工智能智能体具有更细致入微的理解,并能够根据上下文应用知识,类似于人类智能(Gao等人,2022)。这种集成对于构建以知识为中心的人工智能智能体至关重要,这些智能体不仅拥有信息,还能够理解、解释和运用信息,从而缩小广泛学习与深刻知识之间的差距(Marcus和Davis,2019;Gao等人,2020)。这些智能体被设计为灵活地对关于世界的动态信息进行推理,增强了它们的稳健性和适应性(Marcus,2020)。

5.5.2 逻辑智能体

一般来说,逻辑智能体是系统的一个组件,旨在应用逻辑推理来处理数据或解决特定于逻辑推理的任务。在像GPT-4这样的大型基础模型的背景下,逻辑智能体是指专门设计用于处理逻辑推理任务的组件或子模块。这些任务通常涉及理解和处理抽象概念、从给定前提中推导结论,或解决需要结构化、逻辑方法的问题。广义地说,像GPT-4这样的基础模型在大量文本数据上进行训练,并学习执行广泛的任务,包括那些需要某种形式逻辑推理的任务。因此,它们的逻辑推理能力集成在整体架构中,通常没有一个明显独立的 “逻辑智能体”。虽然GPT-4和类似模型可以执行涉及逻辑的任务,但它们的方法与人类或传统基于逻辑的系统有根本的不同。它们不遵循形式逻辑规则,也没有对逻辑的明确理解;相反,它们根据从训练数据中学到的模式生成响应。因此,它们在逻辑任务中的表现可能令人印象深刻,但也可能因训练数据的性质和模型设计的固有局限性而不一致或受限。一个在架构中嵌入单独逻辑子模块的例子是(Wang等人,2023e),它在预训练期间修改大语言模型使用的令牌嵌入过程,通过将文本解析为逻辑片段并在令牌嵌入中显式建模逻辑层次结构。

5.5.3 情感推理智能体

在许多人机交互中,情感理解和同理心是智能体的重要技能。例如,创建引人入胜的对话智能体的一个重要目标是使智能体在行动中表现出更多的情感和同理心,同时尽量减少社会上不适当或冒犯性的输出。为了朝着这个目标前进,我们发布了带有同理心的神经图像评论(NICE)数据集(Chen等人,2021),其中包含近两百万张图像以及相应的人类生成的评论和一组人类情感注释。我们还提供了一种新颖的预训练模型——用于图像评论的情感生成建模(MAGIC)(Chen等人,2021),其目的是根据捕捉风格和情感的语言表示为图像生成评论,并帮助生成更具同理心、情感、吸引力和社会适宜性的评论。我们的实验表明,这种方法在训练更像人类且更具吸引力的图像评论智能体方面是有效的。开发具有同理心的智能体是交互式智能体的一个有前途的方向,并且在广泛的群体和人群中创建具有情感理解能力的智能体非常重要,特别是考虑到许多当前的语言模型在情感理解和同理心推理能力方面存在偏差(Mao等人,2022;Wake等人,2023d)。

5.5.4 神经符号智能体

神经符号智能体在神经元和符号的混合系统上运行(d’Avila Garcez和Lamb,2020)。用自然语言解决问题是一项具有挑战性的任务,因为它需要明确捕捉输入中隐含的离散符号结构信息。然而,大多数通用神经序列模型并没有明确捕捉这种结构信息,这限制了它们在这些任务上的性能。(Chen等人,2020)的工作提出了一种基于结构化神经表示智能体的新编码器 - 解码器模型,TP-N2F的编码器使用TPR “绑定” 在向量空间中编码自然语言符号结构,解码器使用TPR “解绑” 在符号空间中生成由关系元组表示的顺序程序,每个关系元组由一个关系(或操作)和多个参数组成。

像GPT-4这样的指令跟随视觉语言模型提供了一个灵活的接口,支持以零样本方式执行广泛的多模态任务。然而,在全图像上操作的接口并不能直接让用户 “指向” 并访问图像中的特定区域。这种能力不仅对于支持基于参考的视觉语言基准测试很重要,而且对于需要精确图像内推理的实际应用也很重要。在(Park等人,2023b)中,我们构建了局部化视觉常识模型,允许用户指定(多个)区域作为输入。我们通过从大型语言模型中采样局部化常识知识来训练我们的模型:具体来说,我们提示大型语言模型根据全局文字图像描述和由一组视觉语言模型自动生成的局部文字区域描述来收集常识知识。这个管道是可扩展的且完全自动化的,因为不需要对齐的或人工编写的图像和文本对。通过单独训练一个选择高质量示例的评论家模型,我们发现仅从图像扩展的局部化常识语料库上进行训练,可以成功地提炼现有的视觉语言模型,以支持参考作为输入的接口。在零样本设置下的实证结果和人类评估表明,与通过生成引用表达式的基线相比,我们的蒸馏方法产生了更精确的视觉语言推理模型。

5.6 大语言模型和视觉语言模型智能体

许多研究利用大语言模型作为智能体来执行任务规划(Huang等人,2022a;Wang等人,2023b;Yao等人,2023a;Li等人,2023a),并利用大语言模型在互联网规模的领域知识和零样本规划能力来执行诸如规划和推理等智能体任务。最近的机器人研究也利用大语言模型进行任务规划(Ahn等人,2022a;Huang等人,2022b;Liang等人,2022),通过将自然语言指令分解为一系列子任务,这些子任务可以是自然语言形式,也可以是Python代码形式,然后使用低级控制器来执行这些子任务。此外,(Huang等人,2022b)、(Liang等人,2022)和(Wang等人,2023a)还结合环境反馈来提高任务性能。也有许多研究表明,在大规模文本、图像和视频数据上训练的通用视觉对齐大语言模型,有能力作为创建能够在各种环境中具身行动的多模态智能体的基础(Baker等人,2022;Driess等人,2023;Brohan等人,2023 )。

参考资料

  • • 标题:AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION

  • • 作者:Zane Durante、Qiuyuan Huang、Naoki Wake、Ran Gong、Jae Sung Park、Bidipta Sarkar、Rohan Taori、Yusuke Noda、Demetri Terzopoulos、Yejin Choi、Katsushi Ikeuchi、Hoi Vo、Li Fei-Fei、Jianfeng Gao

  • • 单位:1. Stanford University;2. Microsoft Research, Redmond;3. University of California, Los Angeles;4. University of Washington;5. Microsoft Gaming

  • • 标签:人工智能;多模态交互;智能体;大语言模型;视觉语言模型

  • • 概述: 本文主要探讨了Agent AI这一新兴领域,涵盖其在多模态交互方面的研究进展、技术整合、训练范式、学习方法、应用任务,以及跨模态、跨领域和跨现实的研究,还讨论了数据集、伦理等相关问题。

  • • 链接:https://arxiv.org/pdf/2401.03568

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值