VideoMAE：南大MCG&腾讯AI Lab 提出第一个视频版MAE框架，使用90%甚至95%遮挡，性能SOTA！...

最新推荐文章于 2025-05-01 09:54:32 发布

我爱计算机视觉

最新推荐文章于 2025-05-01 09:54:32 发布

阅读量4.3k

点赞数 4

文章标签：大数据算法编程语言 python 计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/125025960

版权

本文介绍了由南大王利民团队提出的VideoMAE，这是一个使用高遮挡率（90%-95%）的自监督视频预训练框架，性能超越SOTA。VideoMAE通过定制的掩蔽和重建策略，解决了视频数据的时间冗余性和相关性问题，能够在小规模数据集上取得优秀结果。论文和代码已开源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

本文分享论文『VideoMAE: Masked Autoencoders are Data-Efﬁcient Learners for Self-Supervised Video Pre-Training』，由南大王利民团队提出第一个VideoMAE 框架，使用超高 masking ratio（90%-95%），性能SOTA，代码已开源！

详细信息如下：

论文链接：https://arxiv.org/abs/2203.12602
项目链接：https://github.com/MCG-NJU/VideoMAE

摘要

为了在相对较小的数据集上实现卓越的性能，通常需要在超大规模数据集上对视频Transformer进行预训练。在本文中，作者证明了视频掩蔽自动编码器（video masked autoencoders，VideoMAE）是自监督视频预训练（SSVP）的数据有效学习方式。

受到ImageMAE的启发，作者在本文中提出定制视频数据的掩蔽和重建。这些简单的设计对于克服视频重建过程中时间相关性造成的信息泄漏是有效的。通过实验，作者获得了关于SSVP的三个重要发现：

极高比例的掩蔽率（即90%-95%）仍然可以产生良好的VideoMAE性能。时间上冗余的视频内容能够实现比图像更高的掩蔽率。
VideoMAE在非常小的数据集（即大约3k-4k视频）上取得了非常好的结果，而无需使用任何额外数据。这部分归因于视频重建的挑战性任务，以加强高级结构学习。
VideoMAE表明，对于SSVP，数据质量比数据量更重要。预训练数据集和目标数据集之间的域迁移是SSVP中的重要问题。

值得注意的是，在Kinects-400上，作者使用vanilla ViT主干的VideoMAE可以实现83.9%，在Something-Something V2上可以实现75.3%，在UCF101上可以实现90.8%，在HMDB51上可以实现61.1%，而无需使用任何额外数据。

Motivation

Transformer在自然语言处理方面取得了重大进展。视觉Transformer还改进了一系列计算机视觉任务，包括图像分类、目标检测、语义分割和视频识别。线性投影的图像/视频token上的多头自注意能够在空间或时间上建模视觉内容之间的全局依赖性。通过这种灵活的注意机制，可以有效地减少inductive bias。

训练有效的视觉Transformer（VIT）通常依赖于大规模的监督数据集。最初，预训练ViTs通过使用数以亿计的标注图像来实现良好的性能。对于视频Transformer，它们通常来自基于图像的Transformer，并且严重依赖于大规模图像数据的预训练模型。之前关于从头开始训练视频Transformer的试验产生了非常好的结果（具有强inductive bias的MViT除外）。

因此，学习到的视频Transformer自然会受到基于图像的模型的影响，