Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
Video Mamba套件:状态空间模型作为视频理解的通用替代模型
-
论文链接:https://arxiv.org/abs/2403.09626
-
代码链接:https://github.com/OpenGVLab/video-mamba-suite
-
研究团队:南京大学、上海AI实验室OpenGVlab、复旦大学、浙江大学
-
内容:研究团队将 Mamba 模型的应用划分为四种不同的角色,提出了针对 14 种模型 / 模块的 Video Mamba Suite,在 12 项视频理解任务中对其进行了深入评估。
-
结果:揭示了 Mamba 在处理视频和视频 - 语言任务上的巨大潜力,还展现了其在效率和性能之间取得的卓越平衡。
一、研究思路
-
研究团队对 Mamba 在视频理解领域的潜力进行了探索。他们的研究目标是评估 Mamba 是否可以成为该领域的 Transformer 的一个可行替代方案。首先要解决的问题是如何看待 Mamba 在理解视频方面中的不同角色,他们进一步研究了 Mamba 在哪些任务中表现得更出色。
-
论文将 Mamba 在视频建模中的作用分为以下四类:1) 时序模型,2) 时序模块,3) 多模态交互网络,4) 时空模型。针对每种角色,研究团队都在不同的视频理解任务上研究了其视频建模能力。
二、四种角色
1.Mamba 作为视频时序模型
-
任务和涉及的数据集:时序动作定位( HACS segment),时序动作分割( GTEA)、密集视频字幕( ActivityNet 、You Cook )、视频段落字幕( ActivityNet 、You Cook )、动作预判( Epic-Kitchen-100 )。
-
基线模型:ActionFormer,ASFormer,Testra 和 PDVC
-
挑战模型:将基线模型中的 Transformer 模块替换为基于 Mamba 的模块,包括如上图三种模块,原始的 Mamba (a),ViM (b),以及研究团队原创设计的 DBM (c) 模块。
-
结果:
-
2.Mamba 用于多模态交互
-
任务和涉及的数据集:采用视频时间接地( VTG )任务进行评估。涉及的数据集包括Qv Highlight和Charade-STA。
-
基准:UniVTG 采用 Transformer 作为多模态交互网络。
-
挑战者:使用 UniVTG 来构建基于 Mamba 的 VTG 模型。为了创建跨模态的 Mamba 竞争者,研究团队选择了堆叠双向 Mamba 块,形成一个多模态的 Mamda 编码器,以替代 Transformer 基线。
-
结果:
3.Mamba 作为视频时序适配器
-
任务和涉及的数据集:在Epic - Kitchens - 100数据集上进行零样本/微调的多示例检索和微调的动作识别,以及在Ego Schema数据集上进行零样本长形式问答。
-
基准:TimeSformer.在TimeSformer的基础上,引入双向Mamba块作为时间适配器来替代传统的时间自注意力,以改进时空分割交互。TimeSformer中的空间注意力层保持不变,以便进行公平比较。
-
挑战者: TimeMamba。使用ViM块作为时间模块,并将得到的模型命名为TimeMamba。
-
结果:
-
4.Mamba 用于时空建模
-
任务和相关数据集:在Epic - Kitchens - 100数据集上评估模型在零样本多示例检索中的性能
-
基准:ViViT 和 TimeSformer 。
-
竞争者:进一步扩展了 ViM 模型的空间选择性扫描,以包含时空选择性扫描。命名这个扩展后的模型为 ViViM。研究团队使用在 ImageNet-1K 上预训练的 ViM 模型进行初始化。ViM 模型包含了一个 cls token,该 token 被插入到拍平的 token 序列的中间。图中展示了将 ViM 模型转换为 ViViM的方法。对于给定的包含 M 帧的输入,在每帧对应的 token 序列的中间插入 cls token。此外,研究团队添加了时间位置嵌入,对每个帧初始化为零。然后将展平的视频序列输入到 ViViM 模型中。模型的输出是通过计算每帧的 cls token 的平均值来得到的。
-
结果: