Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding论文整理

Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

Video Mamba套件:状态空间模型作为视频理解的通用替代模型

  • 论文链接:https://arxiv.org/abs/2403.09626

  • 代码链接:https://github.com/OpenGVLab/video-mamba-suite

  • 研究团队:南京大学、上海AI实验室OpenGVlab、复旦大学、浙江大学

  • 内容:研究团队将 Mamba 模型的应用划分为四种不同的角色,提出了针对 14 种模型 / 模块的 Video Mamba Suite,在 12 项视频理解任务中对其进行了深入评估。

  • 结果:揭示了 Mamba 在处理视频和视频 - 语言任务上的巨大潜力,还展现了其在效率和性能之间取得的卓越平衡。

11dcfc2386f04bc6a647576c167a7095.png

一、研究思路

  • 研究团队对 Mamba 在视频理解领域的潜力进行了探索。他们的研究目标是评估 Mamba 是否可以成为该领域的 Transformer 的一个可行替代方案。首先要解决的问题是如何看待 Mamba 在理解视频方面中的不同角色,他们进一步研究了 Mamba 在哪些任务中表现得更出色。

  • 论文将 Mamba 在视频建模中的作用分为以下四类:1) 时序模型,2) 时序模块,3) 多模态交互网络,4) 时空模型。针对每种角色,研究团队都在不同的视频理解任务上研究了其视频建模能力。

二、四种角色

1.Mamba 作为视频时序模型

  • 任务和涉及的数据集:时序动作定位( HACS segment),时序动作分割( GTEA)、密集视频字幕( ActivityNet 、You Cook )、视频段落字幕( ActivityNet 、You Cook )、动作预判( Epic-Kitchen-100 )。

  • 基线模型:ActionFormer,ASFormer,Testra 和 PDVC

d91339988aef4b84af7d31a3faa4a5ed.png

  • 挑战模型:将基线模型中的 Transformer 模块替换为基于 Mamba 的模块,包括如上图三种模块,原始的 Mamba (a),ViM (b),以及研究团队原创设计的 DBM (c) 模块。

  • 结果:

    • 873173c496a64503931d48e127240a3e.png1713d848079e409fa5cfeb9c01fbf9cb.pngfd5474346fe24a2796f01e258feead5e.png

2.Mamba 用于多模态交互

  • 任务和涉及的数据集:采用视频时间接地( VTG )任务进行评估。涉及的数据集包括Qv Highlight和Charade-STA。

  • 基准:UniVTG 采用 Transformer 作为多模态交互网络。

  • 挑战者:使用 UniVTG 来构建基于 Mamba 的 VTG 模型。为了创建跨模态的 Mamba 竞争者,研究团队选择了堆叠双向 Mamba 块,形成一个多模态的 Mamda 编码器,以替代 Transformer 基线。

  • 结果:dedafc9776254b81a89cff73e9ddc288.png

3.Mamba 作为视频时序适配器

  • 任务和涉及的数据集:在Epic - Kitchens - 100数据集上进行零样本/微调的多示例检索和微调的动作识别,以及在Ego Schema数据集上进行零样本长形式问答。

  • 基准:TimeSformer.在TimeSformer的基础上,引入双向Mamba块作为时间适配器来替代传统的时间自注意力,以改进时空分割交互。TimeSformer中的空间注意力层保持不变,以便进行公平比较。

  • 挑战者: TimeMamba。使用ViM块作为时间模块,并将得到的模型命名为TimeMamba。

  • 结果:

  • a2ce101db5f4470889c89755811d850b.png603597b6d5744cf09708eb0b281d542c.png

4.Mamba 用于时空建模

  • 任务和相关数据集:在Epic - Kitchens - 100数据集上评估模型在零样本多示例检索中的性能

  • 基准:ViViT 和 TimeSformer 。

    5ba1115cff79468381fae76ad9a9856b.png

  • 竞争者:进一步扩展了 ViM 模型的空间选择性扫描,以包含时空选择性扫描。命名这个扩展后的模型为 ViViM。研究团队使用在 ImageNet-1K 上预训练的 ViM 模型进行初始化。ViM 模型包含了一个 cls token,该 token 被插入到拍平的 token 序列的中间。图中展示了将 ViM 模型转换为 ViViM的方法。对于给定的包含 M 帧的输入,在每帧对应的 token 序列的中间插入 cls token。此外,研究团队添加了时间位置嵌入,对每个帧初始化为零。然后将展平的视频序列输入到 ViViM 模型中。模型的输出是通过计算每帧的 cls token 的平均值来得到的。

  • 结果:349b7abec4d34e8fb6fa740a0f78dc87.png

 

 

 

 

  • 24
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值