VideoMAE：掩码自编码器是数据高效的自监督视频预训练学习器

AI专题精讲

已于 2025-05-13 21:05:35 修改

阅读量634

点赞数 9

分类专栏：视觉模型Paper阅读文章标签：人工智能

于 2025-05-01 09:54:32 首次发布

本文链接：https://blog.csdn.net/qq_39698985/article/details/147355999

版权

视觉模型Paper阅读专栏收录该内容

26 篇文章

订阅专栏

摘要

在相对较小的数据集上，通常需要在超大规模数据集上进行视频transformer的预训练，才能取得优异的性能。本文提出，视频掩蔽自编码器（VideoMAE）是自监督视频预训练（SSVP）的数据高效学习方法。我们受到近期图像MAE [31] 的启发，提出了定制的视频管道掩蔽，具有极高的比例。这种简单的设计使视频重建成为一个更具挑战性且有意义的自监督任务，从而在预训练过程中促进了更有效的视频表示的提取。我们通过VideoMAE得出了三个重要发现：（1）即使是极高的掩蔽比例（即90%到95%），仍能为VideoMAE带来良好的性能。视频内容的时序冗余使得掩蔽比例比图像更高。（2）VideoMAE在非常小的数据集（即约3000到4000个视频）上取得了令人印象深刻的结果，且没有使用任何额外的数据。这部分归因于视频重建任务的挑战性，促进了高级结构学习。（3）VideoMAE表明，数据质量比数据量更重要，尤其在SSVP任务中，预训练和目标数据集之间的领域迁移是一个重要因素。值得注意的是，我们的VideoMAE在基础的ViT骨架上，能够在Kinetics-400上达到87.4%，在Something-Something V2上达到75.4%，在UCF101上达到91.3%，在HMDB51上达到62.6%，且没有使用任何额外的数据。代码可以在 https://github.com/MCG-NJU/VideoMAE 获取。

1 引言

Transformer [71] 在自然语言处理 [18, 7, 55] 上带来了显著的进展。视觉transformer [21] 同样提升了包括图像分类 [67, 89]、物体检测 [8, 38]、语义分割 [81]、物体跟踪 [14, 17] 和视频识别 [6, 3] 在内的一系列计算机视觉任务。通过对图像/视频token的线性投影进行多头自注意力，可以建模视觉内容之间的全局依赖关系，无论是在空间上还是时间上。通过这一灵活的注意力机制，有效地减少了归纳偏差。

训练有效的视觉transformer（ViT）通常需要大规模的监督数据集。最初，预训练的ViT通过使用数亿张标注图像取得了优异的性能 [21]。对于视频transformer [3, 6]，它们通常源自基于图像的transformer，并且在很大程度上依赖于来自大规模图像数据（如ImageNet [58]）的预训练模型。之前关于从零开始训练视频transformer的尝试 [3, 6] 结果并不令人满意（除了具有强归纳偏差的MViT [22]）。因此，学习到的视频transformer天然地受图像模型的影响，如何有效且高效地在视频数据集上训练一个基础的视觉transformer，而不使用任何预训练模型或额外的图像数据，仍然是一个挑战。此外，现有的视频数据集相较于图像数据集较小，这进一步增加了从零开始训练视频transformer的难度。

同时，自监督学习通过使用大规模的图像数据集 [15, 9] 展现了显著的性能。通过自监督学习学习到的表示，在迁移到下游任务时，优于通过监督学习获得的表示。预计这种自监督学习范式能够为解决训练视频transformer的挑战提供一种有前景的解决方案。
在这里插入图片描述

继掩蔽自编码在NLP [18] 和图像 [31, 4] 领域的成功之后，我们提出了一种新的自监督视频预训练（SSVP）方法，称为视频掩蔽自编码器（VideoMAE）。我们的VideoMAE继承了掩蔽随机立方体并重建缺失部分的简单流程。然而，视频的额外时间维度使其在这一掩蔽建模中与图像有所不同。首先，视频帧通常密集捕捉，并且其语义随时间变化缓慢 [88]。这种时间冗余会增加从时空邻域恢复缺失像素的风险，且恢复过程几乎没有高层次的理解。此外，视频可以被视为静态外观的时间演变，帧之间存在对应关系。这种时间相关性可能会导致信息泄漏（即在重建过程中掩蔽的时空内容重复出现），除非考虑特定的掩蔽策略。从这个角度来看，对于每个掩蔽的立方体来说，很容易在相邻帧中找到一个对应的未掩蔽副本。这一特性可能使得学习到的模型识别出一些“捷径”特征，这些特征很难在新的场景中进行泛化。

为了使视频掩蔽建模更加有效，本文提出了在我们的VideoMAE中使用极高比例的管道掩蔽的定制设计。首先，由于时间冗余，我们使用极高的掩蔽比例来丢弃下采样视频片段中的立方体。这一简单策略不仅有效提高了预训练性能，而且由于采用了不对称的编码-解码架构，还大大降低了计算成本。其次，为了考虑时间相关性，我们设计了一种简单但有效的管道掩蔽策略，结果表明，该策略在减轻重建过程中没有或几乎没有运动的立方体的信息泄漏风险方面非常有帮助。通过在我们的VideoMAE中采用这一简单而有效的设计，我们能够成功地在相对较小规模的视频数据集上训练基础的ViT骨架，如Something-Something [26]、UCF101 [61] 和HMDB51 [35]，并显著超越了之前在不使用额外数据的情况下的最先进水平。

总结来说，本文的主要贡献有三方面：

我们提出了一种简单而有效的视频掩蔽自编码器，释放了基础视觉transformer在视频识别中的潜力。据我们所知，这是首个仅使用普通ViT骨架的掩蔽视频预训练框架。为了解决掩蔽视频建模中的信息泄漏问题，我们提出了极高比例的管道掩蔽，带来了VideoMAE的性能提升。
与NLP和图像中掩蔽建模的结果一致，我们的VideoMAE展示了这种简单的掩蔽与重建策略为自监督视频预训练提供了一个良好的解决方案。使用我们的VideoMAE进行预训练的模型，显著优于从头训练或通过对比学习方法进行预训练的模型。
我们获得了一些关于掩蔽建模的重要发现，这些发现可能在NLP和图像的先前研究中被忽视。（1）我们证明了VideoMAE是一种数据高效的学习器，可以仅使用3.5k个视频成功训练。（2）在源数据集和目标数据集之间存在领域迁移时，数据质量比数据量对于SSVP更为重要。

2 相关工作

视频表示学习。良好的视频表示学习在文献中得到了广泛研究。监督学习方法 [59, 76, 70, 10, 6] 通常依赖于图像骨架。视频编码骨架首先使用图像数据以监督方式进行预训练，然后在视频数据集上进行微调，以便对人类动作进行分类。与此同时，一些方法 [68, 23, 22] 直接从视频中以监督方式训练视频骨架。除了监督学习之外，半监督视频表示学习也得到了研究 [60]。已标记训练样本的表示用于为未标记样本生成监督信号。监督或半监督表示学习主要使用自上而下的训练范式，这在探索视频数据固有结构方面效果不佳。与此同时，一些多模态对比学习方法 [37, 43, 63] 已经被开发出来，用于从嘈杂的文本监督中学习视频表示。

对于自监督学习，时间信息的先验知识已被广泛应用于设计自监督视频预训练（SSVP）的前置任务 [79, 45, 83, 5]。近年来，对比学习 [29, 46, 30, 53, 25, 28] 在学习更好的视觉表示方面变得非常流行。然而，这些方法严重依赖强大的数据增强和大批量大小 [24]。通过使用CNN或LSTM骨架 [49, 62]，或者使用自回归的GPT [84] 进行视频生成，已经探索了在像素空间中预测视频片段进行表示学习。与此不同，我们的VideoMAE旨在使用简单的掩蔽自编码器和最新的ViT骨架执行数据高效的SSVP。

掩蔽视觉建模。掩蔽视觉建模已经被提出，用于基于简单的掩蔽与重建流程学习有效的视觉表示。这些工作主要集中在图像领域。早期的工作 [73] 将掩蔽作为噪声类型，在去噪自编码器 [72] 中进行处理，或者使用卷积来填补缺失的区域 [48]。iGPT [11] 跟随NLP中GPT [7, 56] 的成功，并操作像素序列进行预测。原始的ViT [21] 探索了掩蔽token预测用于自监督预训练。最近，视觉transformer的成功促使了基于Transformer的架构在掩蔽视觉建模中的研究 [4, 20, 31, 80, 82, 90]。BEiT [4]、BEVT [77] 和VIMPAC [65] 跟随BERT [18] 提出了通过预测离散token [57] 来从图像和视频中学习视觉表示。MAE [31] 引入了一种非对称的编码-解码架构用于掩蔽图像建模。MaskFeat [80] 提出了重建掩蔽token的HOG特征，以便在视频中执行自监督预训练。VideoMAE 受ImageMAE的启发，并在SSVP的实现中引入了特定的设计。特别是，与以前的掩蔽视频建模方法 [31, 77, 65] 相比，我们提出了一个更简单但更有效的视频掩蔽自编码器，通过直接重建像素来实现。我们的VideoMAE是首个仅使用普通ViT骨架的掩蔽视频预训练框架。

3 提出的方法

在本节中，我们首先回顾了ImageMAE [31]。然后，我们分析了视频数据的特点。最后，我们展示了如何通过提出我们的VideoMAE来探索视频数据中的MAE。

3.1 重新审视图像掩蔽自编码器

ImageMAE [31] 使用非对称的编码-解码架构执行掩蔽和重建任务。输入图像 $\in \mathcal { R } ^ { 3 \times H \times W }$ 首先被划分为大小为 16x16 的常规非重叠补丁，每个补丁通过token嵌入进行表示。然后，随机掩蔽一部分token，掩蔽比例较高（75%），只有剩余的token被送入transformer编码器 $\Phi _ { e n c }$ 。最后，一个浅层解码器 $\Phi _ { d e c }$ 被放置在来自编码器的可见token和可学习的掩蔽token之上，用于重建图像。损失函数是归一化的掩蔽token和重建token在像素空间中的均方误差（MSE）损失：
$\mathcal { L } = \frac { 1 } { \Omega } \sum _ { p \in \Omega } | I ( p ) - \hat { I } ( p ) | ^ { 2 } ;$
其中， $p$ 是token索引， $\Omega$ 是掩蔽token的集合， $I$ 是输入图像， $\hat{I}$ 是重建的图像。

在这里插入图片描述

3.2 视频数据的特征

与静态图像相比，视频数据包含时间关系。我们通过分析视频特征来说明我们提出 VideoMAE 的动机。

时间冗余。 视频中频繁捕捉到的帧在时间维度上的语义变化缓慢 [88]。我们观察到连续帧之间高度冗余，如图2所示。这一属性在掩蔽视频自编码中导致两个关键问题。首先，若保持原始时间帧率进行预训练将效率较低，这将导致我们在掩蔽建模时更多地关注静态或缓慢的动作。其次，时间冗余会极大稀释动作表征，从而在正常的掩蔽比例（例如50%至75%）下使得重建缺失像素的任务变得不困难，编码器主干无法有效地捕捉动作表征。

时间相关性。 视频可以看作是静态外观的时间延展，因此相邻帧之间存在固有的对应关系。这种时间相关性会在掩蔽与重建的流程中增加信息泄露的风险。从这个角度看，如图2所示，在普通的随机掩蔽或帧掩蔽下，我们可以通过在相邻帧中找到时空对应的未掩蔽补丁来重建掩蔽补丁。在这种情况下，VideoMAE 可能更多学习的是低层级的时间对应关系，而不是如内容上的时空推理等高层信息。为缓解这一现象，我们需要提出新的掩蔽策略，使重建任务更具挑战性，从而促进对时空结构表征的有效学习。

3.3 VideoMAE

为缓解上述掩蔽视频建模中的问题，我们在 VideoMAE 中进行了定制化设计，其整体流程如图1所示。我们的 VideoMAE 以降采样帧为输入，并采用 cube embedding 获取视频 token。随后，我们提出一种简单的高比例 tube 掩蔽方式，在非对称的编码器-解码器架构下进行 MAE 预训练。我们的主干网络采用 vanilla ViT，并具备联合的时空注意力机制。

时间降采样。 针对前文关于连续帧时间冗余的分析，我们提出使用步幅式时间采样策略以提升视频预训练的效率。形式上，一个包含 $t$ 帧的视频片段首先从原始视频 $V$ 中随机采样获得。随后我们使用时间采样将该片段压缩为 $T$ 帧，每帧包含 $\times W \times 3$ 像素。在实验中，Kinetics 数据集的步幅 $\tau$ 设为 4，Something-Something 数据集则设为 2。

Cube embedding。 我们在 VideoMAE 中采用联合时空的 cube embedding [3, 22, 39]，其中我们将大小为 $\times 16 \times 16$ 的立方块作为一个 token 进行嵌入。因此，cube embedding 层会生成 $\begin{array} { r } { \frac { T } { 2 } \times \frac { H } { 1 6 } \times \frac { W } { 1 6 } } \end{array}$ 个三维 token，并将每个 token 映射到通道维度 $D$ 。这种设计可以降低输入的空间和时间维度，从而帮助缓解视频中的时空冗余。

Tube masking with extremely high ratios. 首先，temporal redundancy 是影响 VideoMAE 设计的一个因素。我们发现，与 ImageMAE 相比，VideoMAE 更倾向于采用极高的 masking ratio（例如 90% 到 95%）。视频的信息密度远低于图像，我们希望通过高比例的掩码来增加重建难度。高 masking ratio 有助于缓解 masked modeling 过程中的信息泄露问题，并使得 masked video reconstruction 成为一个有意义的自监督预训练任务。

其次，temporal correlation 是我们在 VideoMAE 设计中考虑的另一个因素。我们发现，即使在极高的 masking ratio 下，我们仍可以通过提出 temporal tube masking 机制来提升 masking 效率。Temporal tube masking 要求掩码沿整个时间轴扩展，即不同帧共享相同的 masking map。数学上，tube mask 机制可表示为：
$\mathbb { I } [ p _ { x , y , \cdot } \in \Omega ] \sim \mathrm { B e r n o u l l i } ( \rho _ { \mathrm { m a s k } } )$

并且不同时间 $t$ 共享相同的值。通过这种机制，被掩码的 cube 的 temporal 邻居总是被掩码的。因此，对于某些没有或仅有微小运动的 cubes（例如 Figure 2(d) 第四行中的手指 cube），我们无法在所有帧中找到其时空对应内容。这样一来，会促使 VideoMAE 基于高级语义来推理这些完全缺失的 cubes。这个简单的策略能够缓解对运动不足 cubes 的信息泄露问题，并在 masked video pre-training 中被证实是有效的。

Backbone: joint space-time attention. 由于上述提到的高 masking ratio，仅有少量 token 被保留作为 encoder 的输入。为了更好地捕捉这些剩余 token 中的高级时空信息，我们使用 vanilla ViT backbone [21]，并采用 joint space-time attention [3, 39]。因此，所有 token 对可以在 multi-head self-attention 层中相互作用 [71]。Encoder 和 decoder 的具体架构设计详见补充材料。Joint space-time attention 机制的二次复杂度构成了计算瓶颈，而我们采用的极高 masking ratio 的设计通过仅将未被掩码的 token（例如 10%）输入 encoder，从而在预训练阶段缓解了这个问题。

4 实验

4.1 数据集

我们在五个常见的视频数据集上评估 VideoMAE：Kinetics-400 [34]、Something-Something V2 [26]、UCF101 [61]、HMDB51 [35] 和 AVA [27]。Kinetics-400 包含约 24 万个训练视频和 2 万个验证视频，时长为 10 秒，涵盖 400 个类别。Something-Something V2 是另一个大规模视频数据集，包含约 16.9 万个训练视频和 2 万个验证视频。与 Kinetics-400 相比，该数据集包含 174 个以运动为中心的动作类别。这两个大规模视频数据集针对不同的视觉线索进行动作识别。

UCF101 和 HMDB51 是两个相对较小的视频数据集，分别包含约 9.5k/3.5k（训练/验证）和 3.5k/1.5k（训练/验证）的视频。与大型数据集相比，这两个小型数据集更适合验证 VideoMAE 的有效性，因为在小型数据集上训练大型 ViT 模型更具挑战性。

此外，我们还将 VideoMAE 预训练得到的 ViT 模型迁移到下游动作检测任务上。在该任务中，我们采用 AVA 数据集，该数据集用于人类动作的时空定位，包含 211k 个训练和 57k 个验证视频片段。在下游任务实验中，我们对预训练的 VideoMAE 模型在训练集上进行微调，并在验证集上报告结果。具体实现细节详见附录 § 7。

4.2 Ablation Studies

在本节中，我们以 16-frame 的 ViT-B 作为默认 backbone，在 Something-Something V2（SSV2）和 Kinetics-400（K400）上对 VideoMAE 的设计进行深入的消融研究。Encoder 和 decoder 的具体架构详见附录 § 6。对于 fine-tuning，我们在 SSV2 上采用 TSN [76] 的均匀采样策略，在 K400 上采用 dense sampling [78, 23]。所有模型在推理阶段使用相同的协议，即 SSV2 上为 2 clips × 3 crops，K400 上为 5 clips × 3 crops。

Decoder design. 轻量级 decoder 是 VideoMAE 的关键组件之一。我们在 Table 1a 中进行了不同深度的实验。与 ImageMAE 不同，在 VideoMAE 中，较深的 decoder 对性能提升更为重要，而较浅的 decoder 则有助于降低 GPU 内存消耗。我们默认使用 4 层的 decoder，decoder 的宽度设置为 encoder 通道数的一半（例如，对于 ViT-B 为 384-d），该设计参考了图像领域的做法。

在这里插入图片描述
Masking strategy.
我们在表1b中比较了不同的掩码策略。当将管道掩码的掩码比例从75%增加到90%时，SSV2上的性能从68.0%提升到了69.6%。然后，在极高掩码比例下，我们发现管道掩码的表现也优于简单的随机掩码和帧掩码。我们将这些有趣的观察归因于视频中的冗余性和时间相关性。K400上的结论与SSV2上的结论一致。需要注意的是，K400上的性能差距比SSV2小。我们认为，Kinetics的视频大多是静态和场景相关的，时间建模的效果并不明显。总体而言，我们认为我们的默认设计强制网络捕获更多有用的时空结构，因此使得VideoMAE成为一个更具挑战性的任务，这是一个优秀的自监督学习器所渴求的。

Reconstruction target.
首先，如果我们仅使用中心帧作为目标，结果将大幅下降，如表1c所示。采样步幅也很敏感。小采样步幅τ2的结果低于默认采样步幅τ（在SSV2上分别为68.9%与69.6%）。我们还尝试从下采样的T帧重建2T帧，但在SSV2上获得的结果略差。为了简化，我们将输入的下采样片段作为默认重建目标。

Pre-training strategy.
我们在表1d中比较了不同的预训练策略。与之前的实验类似[3, 6]，从头开始训练视频变换器在视频数据集上得到的结果不理想。当在大规模的ImageNet-21K数据集上进行预训练时，视频变换器在SSV2上的准确率从32.6%提高到61.8%，在K400上的准确率从68.8%提高到78.9%。使用在ImageNet-21K和Kinetics上预训练的模型进一步提高了准确率，SSV2上达到了65.2%。我们的VideoMAE可以有效地在视频数据集上训练视频变换器，而无需使用任何额外的数据，并取得最佳表现（SSV2上为69.6%，K400上为80.0%）。

Pre-training dataset.
首先，我们在ImageNet-1K上预训练了ViT-B 1600个epochs，遵循[31]中的训练方法。然后，我们将2D补丁嵌入层扩展为我们的立方体嵌入层，遵循[10]中的方法，并在目标视频数据集上微调模型。结果超越了从头开始训练的模型，如表1e所示。我们还将ImageMAE预训练的模型与在视频数据集上预训练的VideoMAE模型进行了比较。我们发现，VideoMAE模型比ImageMAE模型表现更好。然而，当我们尝试将预训练的VideoMAE模型迁移到其他视频数据集（例如从Kinetics到Something-Something）时，结果稍逊于直接在目标视频数据集上预训练的模型。我们认为，预训练数据集与目标数据集之间的领域转移可能是一个重要问题。
在这里插入图片描述

Loss function.
表1f包含了损失函数的消融研究。我们发现，与L1损失和平滑L1损失相比，MSE损失能够获得更高的结果。因此，我们默认使用MSE损失。

4.3 主要结果与分析

VideoMAE: 数据高效的学习器。
自监督视频预训练（SSVP）在之前的研究中已有广泛研究，但大多数使用基于CNN的骨干网络。很少有研究探讨基于变换器的骨干网络在SSVP中的应用。因此，为了证明VideoMAE在基于变换器的SSVP中的有效性，我们比较了自己实现的两种方法：（1）从头开始训练，（2）使用对比学习（MoCo v3 [15]）进行预训练。对于从头开始训练，我们仔细调节了这些超参数，成功地从数据集的训练集预训练了ViT-Base。对于MoCo v3预训练，我们严格遵循其在图像领域的训练实践，并仔细避免了崩溃问题。

识别准确率在表2中报告。我们看到，VideoMAE显著优于其他两种训练设置。例如，在最大的Kinetics-400数据集上，VideoMAE比从头训练提高了约10%，比MoCo v3预训练提高了约5%。这一优异的性能表明，掩码自编码器为视频变换器提供了一种有效的预训练机制。我们还发现，随着训练集的减小，VideoMAE与其他两种方法之间的性能差距变得更大。值得注意的是，即使只有3.5k个训练片段的HMDB51，VideoMAE预训练仍然能够获得令人满意的准确度（约61%）。这一新结果证明，VideoMAE是一种数据高效的SSVP学习器。这一特性在数据有限的场景中特别重要，与对比学习方法不同。

预训练效率比较。
我们在表3中比较了VideoMAE预训练与MoCo v3预训练的效率。由于掩码自编码任务需要处理高比例掩码，这使得任务更加困难，因此需要更多的训练周期（800与300）。得益于我们VideoMAE中的非对称编码器-解码器结构和极高的掩码比例，我们的预训练时间远比MoCo v3要短（19.5小时与61.7小时）。

高掩码比例。
在VideoMAE中，一个核心设计是极高的掩码比例。我们在Kinetics-400和Something-Something V2数据集上进行了该设计的调查。结果如图3所示。我们发现最佳的掩码比例非常高，甚至95%的掩码比例也能在这两个数据集上取得良好的性能。这一结果与NLP中的BERT [18]和图像中的MAE [31]有所不同。我们分析认为，视频中的时间冗余性和相关性使得VideoMAE能够在如此高的掩码比例下学习到合理的输出。

在这里插入图片描述

我们发现，即使在极高的掩码比例下，VideoMAE仍然能够生成令人满意的重建结果。这表明，VideoMAE能够学习到有用的表示，捕捉视频中的整体时空结构。

迁移学习：质量与数量。
为了进一步研究VideoMAE在表示学习中的泛化能力，我们将学习到的VideoMAE从Kinetics-400迁移到Something-Something V2、UCF101和HMDB51。结果见表4，并与MoCo v3预训练进行了比较。由VideoMAE预训练的模型优于由MoCo v3预训练的模型，证明我们的VideoMAE学习到的表示具有更强的可迁移性。

比较表2和表4，我们看到迁移后的表示在UCF101和HMDB51上超越了原本在其数据集上训练的VideoMAE模型。相反，在Something-Something V2上的迁移表示则较差。为了弄清楚这个不一致的结果是否由Something-Something V2的大规模数据集引起，我们进一步通过减少预训练视频数量进行了详细调查。在这个研究中，我们进行了两次实验：（1）使用相同的训练周期进行预训练，（2）使用相同的时间预算进行预训练。结果如图4所示。我们发现，当减少预训练集的大小时，更多的训练迭代有助于更好的性能。令人惊讶的是，即使只有42k个预训练视频，我们仍然可以获得比使用240k个视频的Kinetics预训练模型更好的准确率（68.7% vs. 68.5%）。这一结果表明，领域偏移是另一个重要因素，当预训练数据集和目标数据集之间存在差异时，数据质量比数据量更为重要。这也证明了VideoMAE是一个数据高效的学习器，特别适合于SSVP。

迁移学习：下游动作检测。
我们还将Kinetics-400上学习到的VideoMAE迁移到下游的动作检测数据集AVA。按照标准设置[27]，我们在60个常见类别上进行评估，使用均值平均精度（mAP）作为度量指标，IoU阈值为0.5。结果见表5。在Kinetics-400上进行自监督预训练后，我们的VideoMAE使用基础的ViT-B模型在AVA上达到了26.7的mAP，证明了VideoMAE的强大迁移能力。如果将预训练的ViT-B在Kinetics-400上进一步微调，迁移学习性能可以再提高约5个mAP（从26.7提高到31.8）。更值得注意的是，当我们通过更大的视频数据集（例如Kinetics-700）或更强大的骨干网络（例如ViT-Large和ViT-Huge）来扩大预训练配置时，VideoMAE最终能够获得更好的性能。例如，我们在Kinetics-700上预训练的ViT-L VideoMAE达到了39.3的mAP，而在Kinetics-400上预训练的ViT-H VideoMAE达到了39.5的mAP。这些结果证明，自监督预训练的模型不仅在动作分类任务中有很好的迁移效果，也能在更复杂的动作检测任务中表现出色。

在这里插入图片描述

4.4 与现有最先进方法的比较

我们在Kinetics-400和Something-Something V2数据集上与之前的最先进方法进行了比较。结果见表6和表7。我们的VideoMAE可以轻松地与更强大的骨干网络（例如ViT-Large和ViT-Huge）以及更多的帧数（例如32帧）进行扩展。我们的VideoMAE在Something-Something V2上的Top-1准确率达到了75.4%，在Kinetics-400上的准确率达到了87.4%，且未使用任何额外数据。

我们可以看到，现有的最先进方法都依赖外部数据进行Something-Something V2数据集的预训练。相反，我们的VideoMAE在没有任何外部数据的情况下，显著优于之前的方法，相同输入分辨率下提高了约5%。我们的ViT-H VideoMAE在Kinetics-400数据集上也取得了非常有竞争力的表现，且未使用任何外部数据，甚至比在JFT-300M上进行预训练的ViViT-H表现更好（86.6%对比84.9%）。当使用更大的空间分辨率和输入视频帧进行微调时，我们的ViT-H VideoMAE的性能可以进一步提升，从86.6%提升至87.4%。

5 结论

本文提出了一种简单且数据高效的自监督学习方法——VideoMAE，用于视频Transformer的预训练。我们的VideoMAE引入了两个关键设计：极高的掩码比率和管道掩码策略，使视频重建任务更具挑战性。这个更具挑战性的任务可以鼓励VideoMAE学习更多的代表性特征，并缓解信息泄漏问题。实验证明，这种简单的算法在不同规模的视频数据集上表现良好。特别是，我们能够仅用几千个视频片段训练有效的VideoMAE，这对数据有限的场景具有重要的实际价值。

未来工作
VideoMAE可以通过使用更大规模的网络数据集、更大的模型（例如ViT-G）和更大的输入视频空间分辨率（例如3842）进一步改进。VideoMAE仅利用RGB视频流，而未使用额外的音频或文本流。我们预计，视频数据中的音频和文本可以为自监督预训练提供更多信息。

更广泛的影响
VideoMAE的潜在负面社会影响主要与能源消耗有关。预训练阶段可能导致大量的碳排放。尽管预训练过程能源消耗较高，但我们只需要训练一次模型，之后可以通过额外的微调让不同的下游任务共享相同的预训练模型。我们的VideoMAE释放了基础视觉Transformer在视频分析中的巨大潜力，但这也可能增加视频理解模型或其输出被错误使用的风险，比如用于未经授权的监控。

论文名称：VideoMAE: Masked Autoencoders are Data-Efficient
Learners for Self-Supervised Video Pre-Training
论文地址：https://proceedings.neurips.cc/paper_files/paper/2022/file/416f9cb3276121c42eebb86352a4354a-Paper-Conference.pdf