Empowering Multimodal LLMs with Foresight Minds(Merlin)论文精读

  • paper:https://arxiv.org/pdf/2312.00589.pdf
  • code:https://ahnsun.github.io/merlin/

0 Abstract

  • 根据观测预测未知是人类的一个能力,对MLLM进行“future modeling”可以更好地激发其潜能;
  • 物体轨迹是一种连续帧间高度结构化的表征,是连接过去和未来信息的桥梁;
  • 提出两种训练策略,帮助LLM获得这种能力:
    • Foresight Pre-Training (FPT):让MLLM学习根据观测预测物体轨迹
    • Foresight Instruction-Tuning (FIT):根据预测的轨迹信息,对未来可能发生的事件进行预测

1 Introduction

  • 现有的MLLM在预知事件未来上的表现欠佳,甚至在提供多帧信息的情况下:
    在这里插入图片描述

  • 人类进行事件预测通常包括两个步骤,对于MLLM来说,第一个步骤是挑战:

    • 观测主体的动态表征(dynamic clues);
    • 根据观测分析主体的行为模式和推理可能发生的事情。
  • 文章指出:轨迹(trajectory)作为一种高度结构化的表征,可以作为连接past和future的时序上下文。

  • 根据这一指出,文章提出了双阶段训练来赋予MLLM “forsight minds”的能力:

    • FPT:接受多帧输入,根据初始观测,预测完整的物体轨迹;
    • FIT:接受多帧输入以及完整的物体轨迹,根据相应的问题回答关于未来的预测。
  • 文章惊奇地发现,这种方式有助于强化MLLM对于图像的理解。

2 Related Work

3 Methodology

3.1 Overall Architecture

在这里插入图片描述

  • Visual Encoder:CLIP ViT-L/14,image size 448*448,token length 124;
  • Projector:2D卷积(空间尺度聚合,良好的收敛性能);
  • LLM:Vicuna-7B v1.5.

3.2 Foresight Pre-Training

  • 相较于直接预测下一帧图片的内容,使用包含图像高语意的信息(例如类别,bounding box)去构建轨迹是一种在时空上都更好的选择;

  • 具体做法:接受一段video clip,根据初始观测预测完整的轨迹

    • 对于prompt和回答格式的精确定义;
    • 多模态信息的清晰定义;
    • 帧与观测的交错。
  • 根据video clip {X1, X2, …}以及对第一帧的观测Ofirst,预测完整的轨迹Y:
    在这里插入图片描述

  • 数据组织:
    在这里插入图片描述
    在这里插入图片描述

  • 训练细节:开放全模型参数、混合大量的image-text pairs和rich-annotated conversation data。

3.3 Foresight Instruction Tuning

  • 在prompt中包含物体位置信息(例如点或者bounding box)类似于CoT原则,可以引导MLLM将注意力集中在相关的区域上,从而达到更加准确的对话并减少幻觉;

  • 根据这些发现,文章通过指令微调,弥合轨迹预测和未来推理的gap,具体步骤:

  • 根据video clip {X1, X2, …},对第一帧的观测Ofirst以及完整的轨迹Y,预测未来的观测Z:
    在这里插入图片描述

  • 数据组织:
    在这里插入图片描述

  • 训练细节:冻结vision encoder,开放projector和LLM参数、首先从FPT中采样对话,再从另外的三个数据集构造FIT训练数据(为了进一步释放模型的foresight minds)。

4 Experiment

4.1 Experimental Settings

  • 数据集:
    • FPT:image-text pairs from LAION400M、物体检测、追踪、grounding、物体关系;
    • FIT:LLaVA-665K、三个特殊场景数据集、FPT随机采样数据。
  • 部署细节:
    在这里插入图片描述

4.2 Properties Evaluation of Foresight Minds

  • Future Reasoning:在MMBench达到了8个rank1和2个rank2:
    在这里插入图片描述

  • Identity Association:评估对象跟踪性能,Merlin是第一个可以实现追踪任务的MLLM,可以持平甚至超过专家模型:
    在这里插入图片描述

4.3 Object Hallucination

  • 通过FPT和FIT,模型得到了更加精确的物体关系认知能力,从而更好的避免幻觉(COCO):
    在这里插入图片描述

4.4 General Comprehension

  • VQA等任务表现优秀,这表明:将foresight minds引入MLLM的同时,我们不仅保留了他们最初的视觉能力,甚至进一步提高了他们的整体视觉感知水平:
    在这里插入图片描述

4.5 Ablative Analysis of FPT & FIT

  • image-text pairs的缺失会严重损害模型的泛化能力:

在这里插入图片描述

4.6 Visualization Analysis

  • 轨迹预测的训练范式可以让大模型更好地阅读图像!
    在这里插入图片描述

5 Others

在这里插入图片描述

  • 27
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值