VideoMamba: State Space Model for Efficient Video Understanding

最新推荐文章于 2024-08-08 14:28:23 发布

liferecords

最新推荐文章于 2024-08-08 14:28:23 发布

阅读量1.2k

点赞数 11

分类专栏： LLM 文章标签：语言模型人工智能 mamba MLLM

本文链接：https://blog.csdn.net/liferecords/article/details/136670033

版权

LLM 专栏收录该内容

71 篇文章 5 订阅

订阅专栏

VideoMamba: State Space Model for Efficient Video Understanding

相关链接：arxiv github
关键字：Video Understanding、State Space Model、Efficiency、Long-context Modeling、Self-Distillation

摘要

为了应对视频理解中局部冗余和全局依赖性的双重挑战，本项工作创新性地将Mamba模型适配到视频领域，提出了VideoMamba模型。该模型克服了现有3D卷积神经网络和视频Transformer的限制。其线性复杂度算子能有效进行长期建模，这一点对于高分辨率长视频理解至关重要。通过广泛的评估，VideoMamba展现了四大核心能力：（1）可扩展性：得益于新颖的自我蒸馏技术，在没有进行大规模数据集预训练的情况下，在视觉领域实现可扩展；（2）敏感性：能够识别具有细微动作差异的短期行动；（3）长视频理解能力上的优越性，展示了对比传统特征模型的显著进步；（4）与其他模态的兼容性，展示了在多模态环境中的鲁棒性。通过这些独特优点，VideoMamba为视频理解树立了新的标杆，为全面的视频理解提供了可伸缩且高效的解决方案。

核心方法

在这里插入图片描述

选择性状态空间模型（SSM）：结合了2D图像处理中百川Mamba和视觉Mamba所利用的多方向SSM。
线性复杂度算子：有效进行视频长期建模。
自我蒸馏技术：在模型和输入尺度增加时，通过简单有效的自我蒸馏策略实现显著性能提升，无需大规模数据集预训练。
双向Mamba（B-Mamba）块：用于处理3D视频序列，提升空间敏感性。
双向3D扫描：将原始2D扫描扩展为适用于时空输入的不同双向3D扫描方法。

实验说明

以下是VideoMamba与其他模型在短期视频数据集上比较的结果：

模型	K400（场景相关）	SthSthV2（时间相关）
SlowFastR101	79.8% top-1 acc	63.1% top-1 acc
TimeSformer	80.7% top-1 acc	62.5% top-1 acc
ViViT	81.3% top-1 acc	65.4% top-1 acc
VideoMamba-Ti	80.3% top-1 acc	66.2% top-1 acc
VideoMamba-S	82.7% top-1 acc	68.1% top-1 acc
VideoMamba-M	83.3% top-1 acc	68.4% top-1 acc

在众多模型中，VideoMamba展示了优秀的性能。

结论

VideoMamba通过其独特的状态空间模型，在短期和长期视频内容理解上展现了巨大潜力。凭借效率和效果，VideoMamba有望成为长视频理解领域的基石。所有代码和模型均已开源，以促进未来研究工作。

liferecords

关注

11
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
VideoMamba: State Space Model for Efficient Video Understanding

为了应对视频理解中局部冗余和全局依赖性的双重挑战，本项工作创新性地将Mamba模型适配到视频领域，提出了VideoMamba模型。该模型克服了现有3D卷积神经网络和视频Transformer的限制。其线性复杂度算子能有效进行长期建模，这一点对于高分辨率长视频理解至关重要。通过广泛的评估，VideoMamba展现了四大核心能力：（1）可扩展性：得益于新颖的自我蒸馏技术，在没有进行大规模数据集预训练的情况下，在视觉领域实现可扩展；（2）敏感性：能够识别具有细微动作差异的短期行动；
复制链接

扫一扫