大型语言模型(LLM)在支持基于文本的人工智能代理方面取得了卓越的性能,赋予它们类似于人类的决策和推理能力。与此同时,出现了一种新兴的研究趋势,重点是将这些由LLMs支持的人工智能代理扩展到多模式领域。此扩展使人工智能代理能够解释和响应不同的多模式用户查询,从而处理更复杂和细致的任务。论文 LLM 驱动的多模式代理进行了系统回顾,论文将其称为大型多模式代理(简称 LMA)。首先,论文介绍了开发 LMA 所涉及的 基本组成部分,并将当前的研究主体分为 四种类型。随后,论文审查了整合多个 LMA 的 协作框架,以提高集体效率。该领域的 关键挑战之一是现有研究中使用的 评估方法多种多样,阻碍了不同 LMA 之间的有效比较。因此,论文们编制了这些评估方法并建立了一个全面的框架来弥补差距。该框架旨在标准化评估,促进更有意义的比较。论文们强调了 LMA 的广泛应用,并提出了未来可能的研究方向。论文的讨论旨在为这个快速发展的领域的未来研究提供有价值的见解和指南。最新资源列表位于 https://github.com/jun0wanan/awesome-large-multimodal-agents。
1. Introduction
代理是一个能够感知其环境并根据这些感知做出决策以实现特定目标的系统[56]。虽然精通狭窄领域,但早期智能体 [35, 50] 往往缺乏适应性和泛化能力,凸显了与人类智能的显着差距。大型语言模型 (LLM) 的最新进展已经开始弥补这一差距,LLM 增强了命令解释、知识同化 [36, 78] 以及模仿人类推理和学习 [21, 66] 的能力。这些代理使用LLMs作为主