VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

最新推荐文章于 2024-04-09 09:33:00 发布

Shiina丶Mashiro

最新推荐文章于 2024-04-09 09:33:00 发布

阅读量761

点赞数

文章标签：迁移学习

本文链接：https://blog.csdn.net/afadgas/article/details/131667292

版权

Abstract

为了在相对较小的数据集上获得最佳性能，通常需要在超大规模数据集上预训练视频转换器。在本文中，我们证明了视频掩码自动编码器(VideoMAE)是用于自监督视频预训练(SSVP)的数据高效学习者。我们受到最近的ImageMAE[31]的启发，提出了极高比例的定制视频管掩码。这种简单的设计使得视频重构成为一项更具挑战性和意义的自我监督任务，从而鼓励在预训练过程中提取更有效的视频表示。我们通过VideoMAE得到了三个重要的发现:(1)极高的掩码率(即90%到95%)仍然可以为VideoMAE带来良好的性能。时间冗余的视频内容比图像具有更高的掩码率。(2) VideoMAE在不使用任何额外数据的情况下，在非常小的数据集(即大约3k-4k视频)上取得了令人印象深刻的结果。这部分归因于视频重建的挑战性任务，以加强高层次的结构学习。(3) VideoMAE表明，对于SSVP，数据质量比数据数量更重要。预训练数据集和目标数据集之间的域转移是一个重要因素。值得注意的是，我们的带有原始ViT主干的VideoMAE在kinect -400上可以达到87.4%，在SomethingSomething V2上可以达到75.4%，在UCF101上可以达到91.3%，在HMDB51上可以达到62.6%，而无需使用任何额外的数据。

1.Introduction

还改进了一系列计算机视觉任务，包括图像分类[67,89]、目标检测[8,38]、语义分割[81]、目标跟踪[14,17]和视频识别[6,3]。对线性投影图像/视频token的多头自关注能够在空间或时间上建模视觉内容之间的全局依赖性。通过这种灵活的注意机制，可以有效地减少归纳偏置。

训练有效的视觉转换器(vit)通常需要大规模的监督数据集。最初，预训练的vit通过使用数亿张标记图像获得了良好的性能[21]。对于视频转换器[3,6]，它们通常来源于基于图像的转换器，并且严重依赖于来自大规模图像数据的预训练模型(例如ImageNet[58])。以前对训练视频变压器从零开始的试验[3,6]得出的结果并不令人满意(除了具有强电感偏置的MViT[22])。因此，学习到的视频变压器自然会受到基于图像的模型的偏差，如何在不使用任何预训练模型或额外的图像数据的情况下，在视频数据集上有效地训练一个普通的视觉变压器仍然是一个挑战。此外，现有的视频数据集相对于图像数据集相对较小，这进一步增加了从头开始训练视频转换器的难度。同时，自监督学习在使用大规模图像数据集时表现出了显著的性能[15,9]。当转移到下游任务时，学习表征优于通过监督学习的表征。这种自我监督学习模式有望为解决训练视频转换器的挑战提供一个有希望的解决方案。

随着掩码自动编码在NLP[18]和图像[31,4]中的成功，我们提出了一种新的自监督视频预训练(SSVP)方法，称为视频掩码自动编码器(VideoMAE)。我们的VideoMAE继承了屏蔽随机立方体和重建缺失立方体的简单管道。然而，视频的额外时间维度使其不同于掩模建模中的图像。**首先，视频帧通常被密集捕获，其语义随时间变化缓慢[88]。这种时间冗余会增加在缺乏高层次理解的情况下从时空邻域恢复缺失像素的风险。视频可以看作是静态外观的时间演化，帧与帧之间存在对应关系。除非考虑特定的掩蔽策略，否则这种时间相关性可能导致重建过程中的信息泄漏(即被掩蔽的时空内容再次出现)。**从这个意义上说，对于每个被屏蔽的立方体，很容易在相邻的帧中找到一个相应的和未被屏蔽的副本。这个属性将使学习模型识别出一些“捷径”特征，这些特征很难推广到新的场景中。

为了使视频掩码建模更加有效，在本文中，我们在我们的VideoMAE中提出了一种具有极高比率的定制管掩码设计。首先，由于时间冗余，我们使用极高的掩蔽比从下采样剪辑中删除立方体。这种简单的策略不仅有效地提高了预训练性能，而且由于编解码器结构的不对称，大大降低了计算成本。其次，为了考虑时间相关性，我们设计了一种简单而有效的管屏蔽策略，该策略有助于减轻在重建过程中没有或可忽略运动的立方体的信息泄漏风险。在我们的VideoMAE中使用这种简单而有效的设计，我们能够在相对较小的视频数据集(如Something-Something [26]， UCF101[61]和HMDB51[35])上成功地训练原始 ViT骨干，在没有额外数据的情况下显着优于以前的技术水平。综上所述，本文的主要贡献有三点:

•我们提出了一个简单而有效的视频掩码自动编码器，它释放了视频识别中原始视觉转换器的潜力。据我们所知，这是第一个简单地使用普通ViT主干的蒙面视频预训练框架。为了解决掩码视频建模中的信息泄露问题，我们提出了超高比例的管掩码，从而提高了VideoMAE的性能。

•与NLP和图像在遮罩建模上的结果一致，我们的VideoMAE证明了这种简单的遮罩和重建策略为自监督视频预训练提供了一个很好的解决方案。使用我们的VideoMAE预训练的模型明显优于从头训练或使用对比学习方法预训练的模型。

•我们在屏蔽建模方面获得了额外的重要发现，这些发现可能在以前的NLP和图像研究中被忽视。(1)我们证明了VideoMAE是一个数据高效的学习者，只需3.5k个视频就可以成功训练。(2)当源数据集和目标数据集之间存在域漂移时，SSVP的数据质量比数量更重要。

2.Related Work

Video representation learning
视频表示学习。学习好的视频表示已经在文献中进行了大量的研究。监督学习方法[59,76,70,10,6]通常依赖于图像主干。首先用有监督形式的图像数据对视频编码器骨干进行预训练。然后，这些主干在视频数据集上进行微调，用于对人类行为进行分类。同时，一些方法[68,23,22]直接从视频中监督训练视频骨干。除了监督学习，半监督视频表示学习也被研究过[60]。利用标记训练样本的表示生成对未标记训练样本的监督信号。有监督或半监督表示学习主要使用自顶向下的训练范式，这对于探索视频本身的固有数据结构是无效的。与此同时，一些多模态对比学习方法[37,43,63]也被开发出来，从有噪声的文本监督中学习视频表示。

对于自监督学习，时间信息的先验知识已被广泛用于设计SSVP的借口任务[79,45,83,5]。最近，对比学习[29,46,30,53,25,28]很受欢迎，以学习更好的视觉表征。然而，这些方法严重依赖于强数据增强和大批处理[24]。通过使用CNN或LSTM主干[49,62]，或使用自回归GPT进行视频生成[84]，研究了在像素空间中使用自编码器预测视频片段。相反，我们的VideoMAE的目标是使用简单的掩码自动编码器和最新的ViT主干来执行数据高效的SSVP。

Masked visual modeling
为了学习有效的视觉表示，提出了一种基于简单的掩码和重建管道的掩码视觉建模方法。这些工作主要集中在图像领域。早期的工作[73]将掩码作为去噪自编码器[72]中的噪声类型，或者通过使用卷积将缺失区域与上下文[48]结合起来。iGPT[11]遵循了GPT[7,56]在NLP中的成功，并操作一系列像素进行预测。原始的ViT[21]研究了自监督预训练的掩模令牌预测。最近，视觉变压器的成功导致了基于变压器的掩码视觉建模架构的研究[4,20,31,80,82,90]。BEiT[4]、BEVT[77]和VIMPAC[65]效仿BERT[18]，提出通过预测离散token来学习图像和视频的视觉表征[57]。MAE[31]引入了一种用于掩码图像建模的非对称编码器-解码器架构。MaskFeat[80]提出重构掩码token的HOG特征，在视频中进行自监督预训练。VideoMAE受到ImageMAE的启发，并引入了SSVP的具体实现设计。特别是，与之前的掩码视频建模[31,77,65]相比，我们通过直接重建像素，提出了一种更简单但更有效的视频掩码自编码器。我们的VideoMAE是第一个简单地使用普通ViT主干的掩码视频预训练框架。

3.Proposed Method

在本节中，我们首先回顾ImageMAE[31]。然后分析了视频数据的特点。最后，我们通过展示我们的VideoMAE来展示我们如何在视频数据中探索MAE。

3.1 Revisiting Image Masked Autoencoders
ImageMAE[31]使用非对称编码器-解码器架构执行掩码和重建任务。首先将输入图像 $I∈R^{3×H×W}$ 分成大小为16 ×16的规则的不重叠的patch，每个patch用token嵌入表示。然后用高屏蔽率(75%)随机屏蔽令牌子集，只有剩余的令牌被馈送到变压器编码器 $Φ_{enc}$ 。最后，将一个浅解码器 $Φ_{dec}$ 放在来自编码器的可见token和可学习的掩码token的顶部，以重建图像。损失函数为归一化掩码与重构掩码在像素空间中的均方误差(MSE)损失:
在这里插入图片描述

其中p为token索引，Ω为掩码token集合，I为输入图像，I’为重构图像。

3.2 Characteristics of Video Data
与静态图像相比，视频数据包含了时间关系。我们通过分析视频特征来展示我们的VideoMAE的动机。

时间冗余。视频中经常有被捕获的帧。语义在时间维度上变化缓慢[88]。我们观察到连续帧是高度冗余的，如图2所示。这个属性导致了掩码视频自动编码中的两个关键问题。首先，保持原始时间帧率进行预训练的效率较低。这将吸引我们更多地关注静态或慢动作在我们的掩码建模。其次，时间冗余极大地稀释了运动表征。这将使得在正常掩码比(例如，50%到75%)下重建缺失像素的任务并不困难。编码器主干在捕获运动表示方面不是很有效。
在这里插入图片描述

时间相关。视频可以看作是静态外观的时间延伸，因此相邻帧之间存在着内在的对应关系。这种时间相关性会增加掩码和重构过程中信息泄漏的风险。从这个意义上说，如图2所示，我们可以通过在普通随机掩码或帧掩码下的相邻帧中找到时空对应的未掩码斑块来重建被掩码的斑块。在这种情况下，它可能引导VideoMAE学习低级时间对应，而不是高级信息，如对内容的时空推理。为了缓解这种行为，我们需要提出一种新的掩蔽策略，使重建更具挑战性，并鼓励对时空结构表征的有效学习。

3.3 VideoMAE
为了解决视频掩码建模中的上述问题，我们在VideoMAE中进行了定制化设计，整体流水线如图1所示。我们的VideoMAE将下采样帧作为输入，并使用立方体嵌入来获得视频令牌。然后，我们提出了一种简单的高比率管掩码设计，以非对称编解码器结构进行MAE预训练。我们的主干使用具有联合时空注意的原始ViT。
在这里插入图片描述

时间下采样。根据上述对连续帧时间冗余的分析，我们提出使用跨行时间采样策略来进行更有效的视频预训练。形式上，首先从原始视频V中随机采样一个由t个连续帧组成的视频剪辑。然后，我们使用时间采样将剪辑压缩为T帧，每个帧包含H × W × 3像素。在实验中，在Kinetics和Something-Something上，步长τ分别被设置为4和2。

多维数据集的嵌入。我们在我们的VideoMAE中采用联合时空立方体嵌入[3,22,39]，其中我们将每个大小为2 × 16 × 16的立方体视为一个token嵌入。因此，立方体嵌入层获得t/2 × h/16 × w/16个三维token，并将每个token映射到通道维度d。这种设计可以降低输入的时空维度，有助于缓解视频中的时空冗余。

具有极高比率的管掩码。首先，时间冗余是影响VideoMAE设计的一个因素。我们发现，与ImageMAE相比，VideoMAE支持极高的掩蔽比(例如90%到95%)。视频的信息密度远低于图像，我们期望高的比例会增加重建的难度。这种高掩蔽率有助于减少掩蔽建模过程中的信息泄漏，使掩蔽视频重构成为一项有意义的自监督预训练任务。

其次，时间相关性是我们的VideoMAE设计中的另一个因素。我们发现，即使在极高的掩蔽比下，我们仍然可以通过提出时间管掩蔽机制来提高掩蔽效率。时间管掩蔽强制掩码在整个时间轴上扩展，即不同的帧共享相同的掩蔽图。在数学上，管掩模机制可以表示为I[px,y，·∈Ω] ~ Bernoulli( $ρ_{mask}$ )，不同的时间t具有相同的值。利用这种机制，遮罩立方体的时间邻居总是被遮罩。所以对于一些没有运动或运动很小的立方体(如图2 (d)第4行的手指立方体)，我们无法在所有帧中找到时空对应的内容。通过这种方式，它将鼓励我们的VideoMAE通过高级语义进行推理，以恢复这些完全丢失的多维数据集。这种简单的策略可以减轻无运动或可忽略运动的多维数据集的信息泄漏，并在蒙面视频预训练中被证明是有效的。

骨干:联合时空注意。由于上面提到的掩蔽比的高比例，只剩下几个令牌作为编码器的输入。为了更好地捕获剩余token中的高级时空信息，我们使用了普通的ViT主干[21]，并采用了联合时空注意[3,39]。因此，所有对令牌可以在多头自关注层中相互交互[71]。编码器和解码器的具体架构设计见补充资料。联合时空注意机制的二次复杂度是一个计算瓶颈，而我们设计的极高掩蔽比通过在预训练阶段仅将未被掩蔽的标记(例如，10%)放入编码器来缓解这一问题。

4.Experiments

4.1 Datasets
我们在五个常见的视频数据集上评估了我们的VideoMAE: Kinetics-400 [34]， Something-Something V2 [26]， UCF101 [61]， HMDB51[35]和AVA[27]。Kinetics-400包含大约240k个训练视频和20k个来自400个班级的验证视频。Something-Something V2是另一个大型视频数据集，大约有169k视频用于训练，20k视频用于验证。与Kinetics-400相比，该数据集包含174个以动作为中心的动作类。这两种大规模的视频数据集中在不同的视觉线索上进行动作识别。UCF101和HMDB51是两个相对较小的视频数据集，分别包含约9.5k/3.5k training /val视频和3.5k/1.5k training /val视频。与那些大规模视频数据集相比，这两个小数据集更适合验证VideoMAE的有效性，因为在小数据集上训练大型ViT模型更具挑战性。此外，我们还通过VideoMAE将学习到的ViT模型转移到下游动作检测任务中。我们使用AVA，这是一个用于人类行为时空定位的数据集，包含211k训练视频片段和57k验证视频片段。在下游任务的实验中，我们在训练集上对预训练的VideoMAE模型进行微调，并在验证集上报告结果。实现细节见附录§7。

4.2 Ablation Studies
在本节中，我们对VideoMAE设计进行了深入的消融研究，并在Something-Something V2 (SSV2)和Kinetics-400 (K400)上使用16帧vitb的默认主干。编码器和解码器的具体架构见附录§6。为了进行微调，我们在SSV2上进行TSN[76]均匀采样，在K400上进行密集采样[78,23]。所有模型共享相同的推理协议，即在SSV2上为2个剪辑× 3个剪辑，在K400上为5个剪辑× 3个剪辑。
在这里插入图片描述

Decoder design轻量级解码器是我们的VideoMAE的一个关键组成部分。我们在表1a中进行了不同深度的实验。与ImageMAE不同，这里的深度解码器对于更好的性能很重要，而浅解码器可以减少GPU内存消耗。默认情况下，我们为解码器取4块。根据图像域的设计，将解码器宽度设置为编码器的半通道(例如，vitb为384-d)。

Masking strategy我们在表1b中比较了不同的屏蔽策略。当管掩蔽率从75%增加到90%时，SSV2上的性能从68.0%提高到69.6%。然后，在非常高的比率下，我们发现管掩码也比普通随机掩码和帧掩码取得了更好的性能。我们将这些有趣的观察结果归因于视频中的冗余和时间相关性。在K400上的结论与在SSV2上的结论一致。有人可能会注意到，K400上的性能差距低于SSV2上的性能差距。我们认为动力学视频大多是静止的和场景相关的。时间模拟的效果不明显。总的来说，我们认为我们的默认设计强制网络捕获更多有用的时空结构，因此使VideoMAE成为一个更具挑战性的任务，这是一个好的自我监督学习者所渴望的。

Reconstruction target首先，如果我们只使用中心框架作为目标，结果会大大降低，如表1c所示。采样步幅也很敏感。小采样步幅τ 2的结果低于默认采样步幅τ(在SSV2上为68.9% vs. 69.6%)。我们也尝试从下采样的T帧重建2T帧，但它在SSV2上得到稍微差一些的结果。为简单起见，我们使用输入下采样片段作为默认重建目标。

Pre-training strategy我们在表1d中比较了不同的预训练策略。与之前的试验类似[3,6]，从头开始训练视频转换器在视频数据集上产生的结果并不令人满意。在大规模ImageNet-21K数据集上进行预训练，视频转换器在SSV2和K400上分别获得了从32.6% 到61.8%和从68.8% 到 78.9%的准确率。使用ImageNet-21K和Kinetics上预训练的模型进一步将SSV2上的准确率提高到65.2%。我们的VideoMAE可以在视频数据集本身上有效地训练视频转换器，而无需使用任何额外的数据，并达到最佳性能(在SSV2上为69.6%，在K400上为80.0%)。

Pre-training dataset首先，我们按照[31]中的食谱，在ImageNet-1K上预训练了1600个epoch的vit-b。然后我们按照[10]将二维补丁嵌入层膨胀为我们的立方体嵌入层，并在目标视频数据集上微调模型。结果优于从头开始训练的模型，如表1e所示。我们还比较了ImageMAE预训练模型和在视频数据集上预训练的VideoMAE模型。我们看到我们的VideoMAE模型可以实现比ImageMAE更好的性能。然而，当我们试图将预训练的VideoMAE模型转移到其他视频数据集(例如，从Kinetics到Something-Something)时，结果比直接在自己的目标视频数据集上预训练的对应模型稍微差一些。我们认为，预训练和目标数据集之间的域漂移可能是一个重要问题。

Loss function表1f包含损耗函数的消融研究。我们发现，与L1 loss和光滑L1 loss相比，MSE loss可以获得更高的结果。因此，我们默认使用MSE损失。

4.3 Main Results and Analysis
VideoMAE: data-efficient learner自监督视频预训练(SSVP)在以往的工作中得到了广泛的研究，但它们主要使用基于cnn的主干。很少有研究基于变压器的SSVP骨干。因此，为了证明VideoMAE对于基于变压器的SSVP的有效性，我们比较了我们自己实现的两种方法:(1)从头开始训练和(2)使用对比学习的预训练(MoCo v3[15])。对于从头开始训练，我们仔细调整这些超参数，以成功地从数据集的训练集预训练ViT-Base。在使用MoCo v3进行预训练时，我们严格遵循其镜像对应的训练实践，并小心避免崩溃问题。
在这里插入图片描述

识别精度如表2所示。我们看到我们的VideoMAE明显优于其他两种训练设置。例如，在最大的Kinetics-400数据集上，我们的VideoMAE比从头开始训练高出约10%，MoCo v3预训练高出约5%。这一优越的性能表明，掩码自编码器为视频变压器提供了一种有效的预训练机制。我们还看到，随着训练集变小，我们的VideoMAE和其他两种方法之间的性能差距也变得越来越大。值得注意的是，即使在HMDB51上只有3.5k的训练片段，我们的VideoMAE预训练仍然可以获得令人满意的精度(约61%)。这一新的结果表明，VideoMAE是一个数据效率更高的SSVP学习器。这一特性对于可用数据有限且不同于对比学习方法的场景尤其重要。

我们比较了VideoMAE预训练和MoCo v3预训练的效率，见表3。具有高比率的掩码自动编码任务更具挑战性，因此需要更多的训练epoch (800 vs 300)。由于我们的VideoMAE中的非对称编码器-解码器和极高的掩蔽比，我们的预训练时间比MoCo v3短得多(19.5小时对61.7小时)。

High masking ratio在VideoMAE中，一个核心设计是极高的掩蔽比。我们在tics-400和Something-Something V2数据集上对该设计进行了调查。结果如图3所示。我们看到，最佳掩蔽比非常高，甚至95%都可以达到良好的性能。该结果与NLP中的BERT[18]和图像中的MAE[31]存在差异。我们分析了视频中的时间冗余和相关性，使得我们的VideoMAE可以学习具有如此高掩蔽比的可信输出。
在这里插入图片描述

我们还在附录§10中可视化了重构的例子。我们看到，即使在极高的掩蔽比下，VideoMAE也能产生令人满意的重建结果。这意味着VideoMAE能够学习捕获视频中整体时空结构的有用表示。

Transfer learning: quality vs. quantity质量vs数量。为了进一步研究VideoMAE在表示学习中的泛化能力，我们将从kinetics400学习到的VideoMAE迁移到somethingsv2、UCF101和HMDB51。结果如表4所示，我们将其与MoCo v3预训练进行比较。VideoMAE预训练的模型优于MoCo v3预训练的模型，表明我们的VideoMAE学习了更多的可转移表征。
在这里插入图片描述

比较表2和表4，转换后的表示优于在UCF101和HMDB51上从自己的数据集训练的原始VideoMAE模型。相比之下，传输的表示在Something-Something V2上更糟糕。为了弄清楚这种不一致的结果是否是由于Something-Something V2的大规模导致的，我们进一步通过减少预训练视频的数量进行了详细的调查。在本研究中，我们进行了两个实验:(1)相同时代的预训练和(2)相同时间预算的预训练。结果如图4所示。我们看到，当我们减少预训练集的大小时，更多的训练迭代可以带来更好的性能。令人惊讶的是，即使只有42k的预训练视频，我们仍然可以获得比240k视频的Kinetics预训练模型更好的准确率(68.7% vs. 68.5%)。这一结果表明，当预训练数据集与目标数据集存在差异时，域漂移是SSVP的另一个重要因素，数据质量比数据数量更重要。它还证明了VideoMAE是一个数据高效的SSVP学习器。

4.4 Comparison with the state of the art
我们将其与之前在tics-400和SomethingSomething V2数据集上的最先进性能进行比较。结果如表6和表7所示。我们的VideoMAE可以通过更强大的骨干(例如viti - large和viti - huge)和更多帧(例如32帧)轻松扩展。

我们的VideoMAE在不使用任何额外数据的情况下，在Something-Something V2和tics-400上达到了75.4%和87.4%的前1精度。我们看到，现有的最先进的方法都依赖于外部数据在Something-Something V2数据集上进行预训练。相反，在没有任何外部数据的情况下，我们的VideoMAE在相同输入分辨率下的性能明显优于以前的方法约5%。我们的viti - h VideoMAE在不使用任何额外数据的情况下也在tics-400数据集上取得了非常有竞争力的性能，这甚至比使用JFT-300M预训练的viti - h更好(86.6% vs . 84.9%)。当对更大的空间分辨率和输入视频帧进行微调时，我们的vith VideoMAE的性能可以从86.6%进一步提高到87.4%。

5 Conclusion

本文提出了一种简单、高效的视频变压器预训练自监督学习方法(VideoMAE)。我们的VideoMAE引入了极高掩蔽比和管掩蔽策略两种关键设计，使视频重建任务更具挑战性。

这项艰巨的任务将鼓励VideoMAE学习更多具有代表性的功能，并缓解信息泄露问题。实验结果表明，该算法对不同尺度的视频数据集都能很好地处理。特别是，我们能够仅通过数千个视频片段学习有效的VideoMAE，这对于可用数据有限的场景具有重要的实用价值。

通过使用更大的网络数据集、更大的模型(如ViT-G)和更大的输入视频空间分辨率(如3842)，VideoMAE的未来工作可以得到进一步改进。VideoMAE仅利用RGB视频流，而不使用额外的音频或文本流。我们期望视频数据中的音频和文本能够为自监督预训练提供更多的信息。

更广泛的影响VideoMAE的潜在负面社会影响主要与能源消耗有关。预训练阶段可能会导致大量的碳排放。虽然预训练是消耗能量的，但我们只需要预训练模型一次。然后，不同的下游任务可以通过额外的微调共享相同的预训练模型。我们的VideoMAE释放了用于视频分析的普通视觉转换器的巨大潜力，这可能会增加视频理解模型或其输出被错误使用的风险，例如用于未经授权的监视。

Shiina丶Mashiro

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

VideoMAE
复制链接

扫一扫