VideoMamba: State Space Model for Efficient Video Understanding

VideoMamba: State Space Model for Efficient Video Understanding

相关链接:arxiv github
关键字:Video UnderstandingState Space ModelEfficiencyLong-context ModelingSelf-Distillation

摘要

为了应对视频理解中局部冗余和全局依赖性的双重挑战,本项工作创新性地将Mamba模型适配到视频领域,提出了VideoMamba模型。该模型克服了现有3D卷积神经网络和视频Transformer的限制。其线性复杂度算子能有效进行长期建模,这一点对于高分辨率长视频理解至关重要。通过广泛的评估,VideoMamba展现了四大核心能力:(1)可扩展性:得益于新颖的自我蒸馏技术,在没有进行大规模数据集预训练的情况下,在视觉领域实现可扩展;(2)敏感性:能够识别具有细微动作差异的短期行动;(3)长视频理解能力上的优越性,展示了对比传统特征模型的显著进步;(4)与其他模态的兼容性,展示了在多模态环境中的鲁棒性。通过这些独特优点,VideoMamba为视频理解树立了新的标杆,为全面的视频理解提供了可伸缩且高效的解决方案。

核心方法

在这里插入图片描述

  • 选择性状态空间模型(SSM):结合了2D图像处理中百川Mamba和视觉Mamba所利用的多方向SSM。
  • 线性复杂度算子:有效进行视频长期建模。
  • 自我蒸馏技术:在模型和输入尺度增加时,通过简单有效的自我蒸馏策略实现显著性能提升,无需大规模数据集预训练。
  • 双向Mamba(B-Mamba)块:用于处理3D视频序列,提升空间敏感性。
  • 双向3D扫描:将原始2D扫描扩展为适用于时空输入的不同双向3D扫描方法。

实验说明

以下是VideoMamba与其他模型在短期视频数据集上比较的结果:

模型K400(场景相关)SthSthV2(时间相关)
SlowFastR10179.8% top-1 acc63.1% top-1 acc
TimeSformer80.7% top-1 acc62.5% top-1 acc
ViViT81.3% top-1 acc65.4% top-1 acc
VideoMamba-Ti80.3% top-1 acc66.2% top-1 acc
VideoMamba-S82.7% top-1 acc68.1% top-1 acc
VideoMamba-M83.3% top-1 acc68.4% top-1 acc

在众多模型中,VideoMamba展示了优秀的性能。

结论

VideoMamba通过其独特的状态空间模型,在短期和长期视频内容理解上展现了巨大潜力。凭借效率和效果,VideoMamba有望成为长视频理解领域的基石。所有代码和模型均已开源,以促进未来研究工作。

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值