Empowering Multimodal LLMs with Foresight Minds（Merlin）论文精读

别码了W哥

已于 2024-02-05 17:02:58 修改

阅读量728

点赞数 27

文章标签：笔记人工智能 chatgpt 深度学习计算机视觉

于 2024-02-04 17:19:20 首次发布

本文链接：https://blog.csdn.net/Leon_____/article/details/136029518

版权

根据观测预测未知是人类的一个能力，对MLLM进行“future modeling”可以更好地激发其潜能；
物体轨迹是一种连续帧间高度结构化的表征，是连接过去和未来信息的桥梁；
提出两种训练策略，帮助LLM获得这种能力：
- Foresight Pre-Training (FPT)：让MLLM学习根据观测预测物体轨迹
- Foresight Instruction-Tuning (FIT)：根据预测的轨迹信息，对未来可能发生的事件进行预测

现有的MLLM在预知事件未来上的表现欠佳，甚至在提供多帧信息的情况下：
人类进行事件预测通常包括两个步骤，对于MLLM来说，第一个步骤是挑战：
- 观测主体的动态表征（dynamic clues）；
- 根据观测分析主体的行为模式和推理可能发生的事情。
文章指出：轨迹（trajectory）作为一种高度结构化的表征，可以作为连接past和future的时序上下文。
根据这一指出，文章提出了双阶段训练来赋予MLLM “forsight minds”的能力：
- FPT：接受多帧输入，根据初始观测，预测完整的物体轨迹；
- FIT：接受多帧输入以及完整的物体轨迹，根据相应的问题回答关于未来的预测。
文章惊奇地发现，这种方式有助于强化MLLM对于图像的理解。

…

在这里插入图片描述

相较于直接预测下一帧图片的内容，使用包含图像高语意的信息（例如类别，bounding box）去构建轨迹是一种在时空上都更好的选择；
具体做法：接受一段video clip，根据初始观测预测完整的轨迹
- 对于prompt和回答格式的精确定义；
- 多模态信息的清晰定义；
- 帧与观测的交错。
根据video clip {X1, X2, …}以及对第一帧的观测Ofirst，预测完整的轨迹Y：
数据组织：
训练细节：开放全模型参数、混合大量的image-text pairs和rich-annotated conversation data。

在prompt中包含物体位置信息（例如点或者bounding box）类似于CoT原则，可以引导MLLM将注意力集中在相关的区域上，从而达到更加准确的对话并减少幻觉；
根据这些发现，文章通过指令微调，弥合轨迹预测和未来推理的gap，具体步骤：
根据video clip {X1, X2, …}，对第一帧的观测Ofirst以及完整的轨迹Y，预测未来的观测Z：
数据组织：
训练细节：冻结vision encoder，开放projector和LLM参数、首先从FPT中采样对话，再从另外的三个数据集构造FIT训练数据（为了进一步释放模型的foresight minds）。

数据集：
- FPT：image-text pairs from LAION400M、物体检测、追踪、grounding、物体关系；
- FIT：LLaVA-665K、三个特殊场景数据集、FPT随机采样数据。
部署细节：

在这里插入图片描述

在这里插入图片描述

关注