【论文阅读笔记】Large Multimodal Agents: A Survey

最新推荐文章于 2025-05-28 17:33:55 发布

Vampire94482664

最新推荐文章于 2025-05-28 17:33:55 发布

阅读量1.3k

点赞数 7

文章标签：论文阅读笔记

本文链接：https://blog.csdn.net/m0_73585751/article/details/136507523

版权

本文概述了大型多模态智能体（LMA）的研究进展，重点关注其感知、规划、执行和记忆组件，以及多智能体协作和评价体系。文章强调了从单一文本向多模态转换的挑战和解决策略，探讨了LMA在不同领域的应用，如机器人、自动驾驶等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[写在开头] 深度学习小白，如果有不对的地方请大家多指正，对说的就是你大佬！

论文名称: Large Multimodal Agents: A Survey
论文链接: https://arxiv.org/pdf/2402.15116.pdf

Large Multimodal Agents (LMAs) 大型多模态智能体

Motivation
大语言模型的诞生赋予了 agent 类人的决策和推理能力，如何将 LLM-based agent 拓展到多模态领域是学界新兴的研究热点。下面这张图是2022年11月到2024年2月在LMA领域的一些研究工作。
关于LLM-based agent的综述有很多，但在多模态领域的综述文章比较少，因此写了这篇文章总结相关工作。
在这里插入图片描述

文章结构

LMA的四个核心组件: 感知、规划、执行、记忆
LMA的四种类型
多智能体协作
LMA的评价体系
LMA的应用场景

LMA的核心组成: Perception、planning、action、memory

在这里插入图片描述

Pe

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Vampire94482664

关注关注

7
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

百篇论文博文导航AI工程之路：FT、KG、RAG与Agent技术全方位探索

丨汀、的博客

07-08

6133

百篇论文博文导航AI工程之路：FT、KG、RAG与Agent技术全方位探索

笔记-《A Survey of Large Language Models》- 尾声

Working harder, getting stronger!

03-27

2254

Sutton, S.Schuh, K.Lomeli, L.Mann, E.Perez, N.5547–5569.[Online].[152] J.Austin, A.Odena, M.I.Nye, M.353–355.[177] P.V.ACM, 2022.559–578.Drain, S.Fort, D.4582–4597.Yih, Eds.8410–8423.[240] Q.Zhang, M.Chen, A.He, Y.Cheng, W.

参与评论您还未登录，请先登录后发表或查看评论

Large Multimodal Agents: A Survey（大型多模态代理：综述）

qq_46094659的博客

03-18

2542

大型语言模型（LLM）在支持基于文本的人工智能代理方面取得了卓越的性能，赋予它们类似于人类的决策和推理能力。与此同时，出现了一种新兴的研究趋势，重点是将这些由LLMs支持的人工智能代理扩展到多模式领域。此扩展使人工智能代理能够解释和响应不同的多模式用户查询，从而处理更复杂和细致的任务。论文 LLM 驱动的多模式代理进行了系统回顾，论文将其称为大型多模式代理（简称 LMA）。首先，论文介绍了开发 LMA 所涉及的，并将当前的研究主体分为。随后，论文审查了整合多个 LMA 的，以提高集体效率。该领域的。

大型多模态智能体：一项调查 Large Multimodal Agents: A Survey

数智笔记

04-24

868

大型语言模型（LLMs）在推动基于文本的人工智能智能体方面取得了卓越表现，赋予它们类似于人类的决策和推理能力。与此同时，出现了一种新兴的研究趋势，专注于将这些由LLM驱动的人工智能智能体扩展到多模态领域。这种扩展使得人工智能智能体能够解释和回应各种多模态用户查询，从而处理更加复杂和微妙的任务。在本文中，我们对由LLM驱动的多模态智能体进行了系统性审查，我们将其称为大型多模态智能体（简称LMAs）。首先，我们介绍了开发LMAs所涉及的基本组件，并将当前的研究内容分类为四种不同类型。

【多模态LLM】A Survey on Multimodal Large Language Models 学习笔记

kaka03200的博客

09-11

955

多模态大语言模型（MLLM）是近年来以强大的大语言模型（LLMs）作为大脑任务的多模态研究热点。MLLM令人惊讶的涌现能力，比如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先，我们提出了MLLM的公式，并描述了它的相关概念。然后，我们讨论了关键的技术和应用，包括多模态指令调整（M-IT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和大语言模型辅助视觉推理（LAVR）。

The Rise and Potential of Large Language Model Based Agents: A Survey 中文翻译

qq_41527980的博客

01-29

2209

长期以来，人类一直追求与或超越人类水平的人工智能（AI），而人工智能代理被视为实现这一目标的有希望的方式。人工智能代理是感知环境、做出决策并采取行动的人工实体。已经有很多关于开发智能代理的努力，但它们主要集中在算法或训练策略方面的改进，以提高特定任务的能力或性能。实际上，社区缺乏一个通用且强大的模型，可以作为设计适应各种情况的人工智能代理的起点。由于它们所展示的各种能力，大型语言模型（LLMs）被认为是人工通用智能（AGI）的潜在火花来源，并为构建通用人工智能代理提供了希望。

每周论文2-周三-基于LLM的多智能体工作综述-Large Language Model based Multi-Agents: A Survey of Progress and Challenges

qq_40671063的博客

03-06

3804

由于LLM令人印象深刻的规划和推理能力，它们被用作自主代理来自动完成许多任务。基于LLM的多代理系统在复杂问题解决和世界模拟方面取得了进步。（基于llm的多代理模拟哪些域和环境?（这些代理人是如何被描述的，他们又是如何交流的?（什么机制促进了代理人能力的增长?该文章总结了常用的数据集或基准，以便访问。

大模型GUI系列论文阅读 DAY1：《基于大型语言模型的图形用户界面智能体：综述》（6.6W 字长文）

feifeikon的博客

01-19

1858

大型语言模型（LargeLanguageModels,LLMs）的兴起[8][9]，特别是那些增强了多模态能力的模型[10]，为GUI自动化带来了颠覆性变化，重新定义了智能体与图形用户界面交互的方式。我们将回顾GUI智能体的发展历史，提供构建这些智能体的分步指南，汇总基本和高级技术，评审与框架、数据和模型相关的重要工具和研究，展示典型应用，并概述未来发展方向。通过这些问题，本综述旨在提供对该领域现状的全面概览，为构建LLM驱动的GUI智能体提供指导，识别关键研究空白，并提出未来工作的方向。

《The Rise and Potential of Large Language Model Based Agents: A Survey》全文翻译

晓野豬

09-22

3564

长久以来，人类一直在追求等同或超越人类的人工智能，而 AI 代理被认为是实现这一追求的有效手段。agent是能够感知环境、做出决策并采取行动的人工智能实体。自 20 世纪中期以来，人们已经为开发 AI 代理做出了许多努力。然而，这些努力主要集中在算法或训练策略的进步上，以增强特定任务上的特定能力或表现。实际上，我们所缺乏的是一个充分且强大的模型，来作为开发可适应各种不同场景的 AI 代理的基础。具有多样且卓越能力的大语言模型，则被视为通向通用人工智能的必经之路，也为构建通用 AI 代理提供了希望。

The Rise and Potential of Large Language ModelBased Agents: A Survey 论文阅读笔记

JP_Y666的博客

10-21

296

不同于传统的vr mr产品，vp整合了相当多的技术和创新，更重要的是苹果这个饼会有更多开发者愿意吃，软件生态的丰富和用户基数的增长必然是个循环，我坚信会是良性的，从从而带动全新的行业变革。这包括模仿人类专家的行为，以及了解他们行为的后果，并根据从环境和人类收到的反馈做出调整，基于LLM的agent也具有通过生成可执行程序或将现有工具集成到更强大的工具中来创建工具的能力。规划能力对智能体至关重要，而该规划模块的核心是推理能力，通过推理，代理将复杂的任务分解为更易于管理的子任务，为每个任务制定适当的计划。

Large Multimodal Agents: A Survey大模型综述论文概要总结

weixin_45320238的博客

10-12

255

LMAs与人机交互领域的交汇代表着未来应用的一个重要方向。

【热】大语言模型智能体(LLM Agents)入门指南

程序员鑫港的博客

05-06

1173

科幻电影和间谍电影中经常出现一种中央人工智能，它与主角交流，搜索互联网和各种秘密数据库，引导主角完成任务。例如电影《钢铁侠》中的贾维斯（J.A.R.V.I.S.）就是一个典型例子。是什么让贾维斯如此特别？钢铁侠甚至不需要告诉它如何解决问题，它会自己找到方法。这正是我们希望通过智能体实现的目标。我们人类将复杂问题分解成更小的子任务和假设，并试图一步一步地证明或证伪它们，以逐步接近解决更大的难题。我们希望通过使用智能体的概念，用大型语言模型模拟这种行为。

多智能体深度强化学习：一项综述 Multi-agent deep reinforcement learning: a survey

wq6qeg88的博客

01-11

2612

强化学习的进步在各个领域都取得了巨大的成功。尽管在这一进展中，多智能体领域已被单智能体领域所掩盖，但多智能体强化学习获得了快速的牵引力，最新的成就解决了现实世界的复杂性问题。本文概述了多智能体深度强化学习领域的当前发展。我们主要关注近年来将深度强化学习方法与多智能体场景相结合的文献。为了调查构成当代景观的作品，主要内容分为三个部分。首先，我们分析了用于训练多个智能体的训练方案的结构。其次，我们考虑了合作、竞争和混合场景中代理行为的涌现模式。

论文阅读：arxiv 2024 SmoothLLM: Defending LLMs Against Jailbreaking Attacks

CSPhD-winston的博客

05-25

941

大语言模型（如GPT、Llama）虽然经过训练以符合人类伦理，但黑客可以通过精心设计的。

【论文阅读】KIMI-VL TECHNICAL REPORT

xianshuiyihui的博客

05-25

1249

VLM--KIMI-VL模型论文阅读

[论文阅读]Prompt Injection attack against LLM-integrated Applications

m0_52911108的博客

05-26

1000

引入一个提示，鼓励大型语言模型总结生成上下文背后的原因；(2)

论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing

Multiple_x的博客

05-27

1208

Step1X-Edit: A Practical Framework for General Image Editing 论文阅读笔记

论文阅读笔记——In-Context Edit

Multiple_x的博客

05-28

1105

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer 论文阅读笔记

论文笔记：Towards Explainable Traffic Flow Prediction with Large Language Models