关注公众号,发现CV技术之美
本文分享论文『VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training』,由南大王利民团队提出第一个VideoMAE 框架,使用超高 masking ratio(90%-95%),性能SOTA,代码已开源!
详细信息如下:
论文链接:https://arxiv.org/abs/2203.12602
项目链接:https://github.com/MCG-NJU/VideoMAE
01
摘要
为了在相对较小的数据集上实现卓越的性能,通常需要在超大规模数据集上对视频Transformer进行预训练。在本文中,作者证明了视频掩蔽自动编码器(video masked autoencoders,VideoMAE)是自监督视频预训练(SSVP)的数据有效学习方式。
受到ImageMAE的启发,作者在本文中提出定制视频数据的掩蔽和重建。这些简单的设计对于克服视频重建过程中时间相关性造成的信息泄漏是有效的。通过实验,作者获得了关于SSVP的三个重要发现:
极高比例的掩蔽率(即90%-95%)仍然可以产生良好的VideoMAE性能。时间上冗余的视频内容能够实现比图像更高的掩蔽率。
VideoMAE在非常小的数据集(即大约3k-4k视频)上取得了非常好的结果,而无需使用任何额外数据。这部分归因于视频重建的挑战性任务,以加强高级结构学习。
VideoMAE表明,对于SSVP,数据质量比数据量更重要。预训练数据集和目标数据集之间的域迁移是SSVP中的重要问题。
值得注意的是,在Kinects-400上,作者使用vanilla ViT主干的VideoMAE可以实现83.9%,在Something-Something V2上可以实现75.3%,在UCF101上可以实现90.8%,在HMDB51上可以实现61.1%,而无需使用任何额外数据。
02
Motivation
Transformer在自然语言处理方面取得了重大进展。视觉Transformer还改进了一系列计算机视觉任务,包括图像分类、目标检测、语义分割和视频识别。线性投影的图像/视频token上的多头自注意能够在空间或时间上建模视觉内容之间的全局依赖性。通过这种灵活的注意机制,可以有效地减少inductive bias。
训练有效的视觉Transformer(VIT)通常依赖于大规模的监督数据集。最初,预训练ViTs通过使用数以亿计的标注图像来实现良好的性能。对于视频Transformer,它们通常来自基于图像的Transformer,并且严重依赖于大规模图像数据的预训练模型。之前关于从头开始训练视频Transformer的试验产生了非常好的结果(具有强inductive bias的MViT除外)。
因此,学习到的视频Transformer自然会受到基于图像的模型的影响,