[写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!
论文名称: Large Multimodal Agents: A Survey
论文链接: https://arxiv.org/pdf/2402.15116.pdf
Large Multimodal Agents (LMAs) 大型多模态智能体
Motivation
大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LLM-based agent 拓展到多模态领域是学界新兴的研究热点。下面这张图是2022年11月到2024年2月在LMA领域的一些研究工作。
关于LLM-based agent的综述有很多,但在多模态领域的综述文章比较少,因此写了这篇文章总结相关工作。
文章结构
- LMA的四个核心组件: 感知、规划、执行、记忆
- LMA的四种类型
- 多智能体协作
- LMA的评价体系
- LMA的应用场景