【论文阅读笔记】Large Multimodal Agents: A Survey

[写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!

论文名称: Large Multimodal Agents: A Survey
论文链接: https://arxiv.org/pdf/2402.15116.pdf

Large Multimodal Agents (LMAs) 大型多模态智能体

Motivation
大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LLM-based agent 拓展到多模态领域是学界新兴的研究热点。下面这张图是2022年11月到2024年2月在LMA领域的一些研究工作。
关于LLM-based agent的综述有很多,但在多模态领域的综述文章比较少,因此写了这篇文章总结相关工作。
在这里插入图片描述

文章结构

  1. LMA的四个核心组件: 感知、规划、执行、记忆
  2. LMA的四种类型
  3. 多智能体协作
  4. LMA的评价体系
  5. LMA的应用场景

LMA的核心组成: Perception、planning、action、memory

在这里插入图片描述

Perception

在这里插入图片描述
相较于 text-based agent,LMA需要提取、处理更丰富的环境信息。如何更好地提取和融合特征是LMA的一个挑战。一些早期的工作就是将其它模态的信息转成文本,例如说用一段话描述一张图片,但这会产生冗余或者很多无关的信息; 针对这一问题,许多paper都提出了自己的方法,比如 JARVIS-1从图片中提取关键的词,然后使用GPT refine这些词生成描述性的语句,最后使用视觉信息在这些语句中检索寻找最相关的语句。

Planning

Planner 是LMA的核心组件,负责决策和推理并制定计划完成相应的目标。
文章从四个维度围绕planner进行阐述, model,format,inspection&reflection, planning method
在这里插入图片描述
Model: 基于什么模型进行规划,闭源模型可以调用API,开源模型可以进行微调
Format: 即规划的结果,自然语言或者程序
Inspection&reflection: 即是否有查询、反思的操作
Planning method: 即是静态规划还是动态规划
在这里插入图片描述
跟我理解的刚好反过来,不知道是不是写错了

Action

Action模块就是具体的执行模块,生成plan以后以什么样的方式去执行
在这里插入图片描述
Action方式包括使用工具(T)、具身动作(E)、虚拟动作(V)

Memory

使用记忆库可以帮助LMA做出更准确的规划。记忆一般以键值对的方式储存。
LMA的四种类型
A. 没有记忆组件的闭源模型
B. 没有记忆组件的微调模型
C. 有间接接触的记忆组件的模型
D. 有直接接触的记忆组件的模型
在这里插入图片描述
在这里插入图片描述
这里是否有直接接触的记忆组件,主要体现在记忆组件用在哪里。用在规划上,就是指我规划的时候参考之前的状态-规划键值对,做出合适规划;用在action上,就比如生成了py文件,执行组件根据之前的记忆,知道要调用python去运行,类似于这样子。

多智能体协作

多智能体协作可以分为两类,有记忆机制的多智能体协作和没有记忆机制的多智能体协作。
在这里插入图片描述

LMA的评价体系

主观评价
Versatility:是否可以使用多种工具
User-Friendliness:LMA的执行速度、准确度等,是否能让用户满意
Scalability: 是否能够使用新的工具、生成内容的多样性
Value and Safety: 生成内容是否是安全的
客观评价
Metric: 现有的指标都是跟特定的任务挂钩的,不能全面评价LMA的能力,因此需要探索更合适的指标。
Benchmarks:这里主要介绍了提出了一些Benchmarks的工作,比如GAIA提出了一个包含了466个问答的测试集
LMA的应用场景
在这里插入图片描述
机器人和具身智能、自动驾驶、视觉生成和编辑等等

以上就是这篇论文Large Multimodal Agents: A Survey的阅读笔记,掐头去尾只有10页,跟其它综述相比确实比较单薄,主要聚焦于多模态LLM,最后作者还以讨论结尾,讨论未来MLLM的发展方向,大家可以去读一读。

创作不易,转载请注明出处。

深度多模态学习是一种研究方法,它将多个模态(例如语音、图像、视频等)的信息进行融合和学习。近年来,深度多模态学习取得了许多重要进展和趋势。 在多模态学习中,深度神经网络在特征提取和模态融合方面发挥了重要作用。通过深度网络的层次处理,可以有效地从原始模态数据中提取出高层次的语义特征。同时,多模态数据的融合也成为研究热点。不同模态之间的关联信息可以通过深度多模态网络进行学习和利用,提高了模型的性能。 近年来,深度多模态学习在不同领域取得了一系列重要的研究成果。在自然语言处理领域,多模态问答系统、图像字幕生成和视觉问答等任务得到了广泛研究。在计算机视觉领域,通过融合多个模态的信息,如图像和语音,可以实现更准确的物体识别和行为分析。在语音识别和语音合成领域,多模态学习也被用来提高语音处理的性能。 同时,一些趋势也值得关注。首先,多模态学习的应用正在不断扩展到更多领域,如医疗、机器人和智能交通等。其次,深度多模态学习和其他深度学习技术的结合也被广泛研究,以提高模型的性能和泛化能力。此外,深度多模态学习在大规模数据和计算资源方面的需求也值得关注。 总之,深度多模态学习是一个充满潜力和挑战的研究方向。随着技术的不断发展和应用需求的增加,我们有理由相信,深度多模态学习将在未来发挥更重要的作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值