Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding论文整理

爱发呆的WWT

已于 2024-09-03 17:00:07 修改

阅读量1.3k

点赞数 24

分类专栏：时序动作定位 Mamba 文章标签：人工智能计算机视觉论文阅读视频论文笔记笔记

于 2024-05-06 17:45:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60273616/article/details/138502633

版权

时序动作定位同时被 2 个专栏收录

14 篇文章

订阅专栏

5 篇文章

订阅专栏

Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

Video Mamba套件：状态空间模型作为视频理解的通用替代模型

论文链接：https://arxiv.org/abs/2403.09626
代码链接：https://github.com/OpenGVLab/video-mamba-suite
研究团队：南京大学、上海AI实验室OpenGVlab、复旦大学、浙江大学
内容：研究团队将 Mamba 模型的应用划分为四种不同的角色，提出了针对 14 种模型 / 模块的 Video Mamba Suite，在 12 项视频理解任务中对其进行了深入评估。
结果：揭示了 Mamba 在处理视频和视频 - 语言任务上的巨大潜力，还展现了其在效率和性能之间取得的卓越平衡。

一、研究思路

研究团队对 Mamba 在视频理解领域的潜力进行了探索。他们的研究目标是评估 Mamba 是否可以成为该领域的 Transformer 的一个可行替代方案。首先要解决的问题是如何看待 Mamba 在理解视频方面中的不同角色，他们进一步研究了 Mamba 在哪些任务中表现得更出色。
论文将 Mamba 在视频建模中的作用分为以下四类：1) 时序模型，2) 时序模块，3) 多模态交互网络，4) 时空模型。针对每种角色，研究团队都在不同的视频理解任务上研究了其视频建模能力。

二、四种角色

1.Mamba 作为视频时序模型

任务和涉及的数据集：时序动作定位( HACS segment)，时序动作分割( GTEA)、密集视频字幕( ActivityNet 、You Cook )、视频段落字幕( ActivityNet 、You Cook )、动作预判( Epic-Kitchen-100 )。

基线模型：ActionFormer，ASFormer，Testra 和 PDVC

挑战模型：将基线模型中的 Transformer 模块替换为基于 Mamba 的模块，包括如上图三种模块，原始的 Mamba (a)，ViM (b)，以及研究团队原创设计的 DBM (c) 模块。
结果：

2.Mamba 用于多模态交互

任务和涉及的数据集：采用视频时间接地( VTG )任务进行评估。涉及的数据集包括Qv Highlight和Charade-STA。
基准：UniVTG 采用 Transformer 作为多模态交互网络。

挑战者：使用 UniVTG 来构建基于 Mamba 的 VTG 模型。为了创建跨模态的 Mamba 竞争者，研究团队选择了堆叠双向 Mamba 块，形成一个多模态的 Mamda 编码器，以替代 Transformer 基线。
结果：

3.Mamba 作为视频时序适配器

任务和涉及的数据集：在Epic - Kitchens - 100数据集上进行零样本/微调的多示例检索和微调的动作识别，以及在Ego Schema数据集上进行零样本长形式问答。

基准：TimeSformer.在TimeSformer的基础上，引入双向Mamba块作为时间适配器来替代传统的时间自注意力，以改进时空分割交互。TimeSformer中的空间注意力层保持不变，以便进行公平比较。
挑战者： TimeMamba。使用ViM块作为时间模块，并将得到的模型命名为TimeMamba。
结果：

4.Mamba 用于时空建模

任务和相关数据集：在Epic - Kitchens - 100数据集上评估模型在零样本多示例检索中的性能

基准：ViViT 和 TimeSformer 。
竞争者：进一步扩展了 ViM 模型的空间选择性扫描，以包含时空选择性扫描。命名这个扩展后的模型为 ViViM。研究团队使用在 ImageNet-1K 上预训练的 ViM 模型进行初始化。ViM 模型包含了一个 cls token，该 token 被插入到拍平的 token 序列的中间。图中展示了将 ViM 模型转换为 ViViM的方法。对于给定的包含 M 帧的输入，在每帧对应的 token 序列的中间插入 cls token。此外，研究团队添加了时间位置嵌入，对每个帧初始化为零。然后将展平的视频序列输入到 ViViM 模型中。模型的输出是通过计算每帧的 cls token 的平均值来得到的。
结果：

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。