【视频理解】2022-CVPR-视频 Transformer 的长短时间对比学习

本文链接：https://blog.csdn.net/weixin_42475026/article/details/131351523

2022-CVPR-Long-Short Temporal Contrastive Learning of Video Transformers

视频 Transformer 的长短时间对比学习

视频 Transformer 的长短时间对比学习

论文地址

摘要

视频 Transformer 最近成为 3D CNN 视频理解的竞争替代品。然而，由于它们的大量参数和减少的归纳偏差，这些模型需要在大规模图像数据集上进行有监督的预训练才能达到最佳性能。在本文中，我们凭经验证明，在纯视频数据集上对视频 Transformer 进行自我监督预训练可以导致动作识别结果与在大规模图像数据集上进行监督预训练所获得的结果相当或更好，甚至是像 ImageNet- 21K。由于基于 Transformer 的模型可以有效地捕获扩展时间跨度上的依赖关系，因此我们提出了一个简单的学习过程，该过程强制模型将同一视频的长期视图与短期视图相匹配。我们的方法称为长短时间对比学习（LSTCL），它使视频 Transformer 能够通过预测从较长时间范围捕获的时间上下文来学习有效的片段级表示。为了证明我们发现的普遍性，我们在三种不同的自监督对比学习框架（MoCo v3、BYOL、SimSiam）下使用两种不同的视频 Transformer 架构实施并验证了我们的方法，包括 Swin Transformer 的改进变体，增加了空间-时间关注。我们进行了彻底的消融研究，表明 LSTCL 在多个视频基准测试中取得了有竞争力的表现，并且代表了基于图像的监督预训练的令人信服的替代方案。

1. 引言

自从 AlexNet [36] 推出以来，深度卷积神经网络（CNN）已成为众多计算机视觉任务中的重要模型 [21、22、30、54、64、65]。最近，Transformer 模型 [61] 由于其在自然语言处理（NLP）领域的令人印象深刻的性能而受到广泛关注 [15]。虽然 CNN 依赖于卷积的局部操作，但 Transformer 的构建块是自注意力 [61]，它在建模远程依赖性方面特别有效。在图像领域，Vision Transformer（ViT）[16] 被提出作为一种无卷积架构，它在模型所有层中的非重叠 patch 之间使用自注意力。ViT 被证明在图像分类任务上与最先进的 CNN 具有竞争力。在过去的几个月里，人们提出了几种 ViT 对视频的改编方案 [3、6、44]。为了从视频中捕获显着的时间信息，这些作品通常将自注意力机制扩展为除了在每一帧内之外还可以沿时间轴操作。由于与 CNN 相比，视频 Transformer 具有更多的参数和更少的归纳偏差，因此它们通常需要对监督图像数据集（例如 ImageNet-21K [52] 或 JFT [3]）进行大规模预训练，才能实现最佳性能。

自监督学习已被证明是一种有效的解决方案，可以消除 NLP [15] 和图像分析 [9、59] 中对 Transformer 进行大规模监督预训练的需要。在这项工作中，我们表明，即使在视频领域，自监督学习也为预训练视频 Transformer 提供了一种有效的方法。具体来说，我们引入了长短时间对比学习（LSTCL），这是一种对比公式，可以最大限度地提高长视频片段（例如，8 秒长）和短得多的片段（例如，2 秒长）之间的表示相似性，其中两个片段都是从同一视频中采样的。我们认为，通过训练短片段表示以匹配长片段表示，模型被迫从较短的范围内推断出较长时间跨度中表现出的上下文信息。由于长片段包含短片段中未包含的时间片段，因此这种自监督策略训练模型预测未来并从小时间窗口预测过去，以便匹配从长片段中提取的表示。我们相信这是视频表示学习的一个很好的借口（pretext），因为只有成功理解和识别长视频中原子动作的结构和相关性才能实现它。此外，这种框架特别适合视频 Transformer，因为它们最近被证明可以有效捕获长期时间线索 [6]。在这项工作中，我们证明了这些长期时间线索可以有效地编码为短期片段级表示，从而显着提高视频分类性能。

为了证明我们研究结果的普遍性，我们尝试了两种不同的视频 Transformer 架构，其代码是公开的。第一个是 TimeSformer [6]，它通过时空分解的方式降低了 3D 视频量上自注意力的计算成本。第二种架构是 Swin Transformer [39]，我们将其进一步扩展为 3D 版本，称为 Space-Time Swin Transformer，它通过使用 3D 移位窗口来计算分层时空自注意力。我们证明，我们的无监督 LSTCL 预训练方案使这两个视频 Transformer 的性能优于在大规模 ImageNet-21K 数据集上进行全面监督预训练的相应视频 Transformer。

总之，本文的贡献可以概括如下：

我们引入了长短时态对比学习（LSTCL），它能够将较长视频的时间上下文编码为短范围片段表示。
我们证明，对于最近的视频 Transformer 模型，我们提出的 LSTCL 预训练为图像上的大规模监督预训练提供了有效的替代方案。
我们提出了一种用于时空特征学习的 Space-Time Swin Transformer，并表明它在多个动作识别基准上取得了良好的结果。

2. 相关工作

图像中的自监督学习。自监督视觉表示学习的早期尝试使用了各种借口任务，例如图像旋转预测 [35]、自动编码器学习 [48、55、62] 或解决拼图游戏 [45]。相比之下，最近的自我监督学习方法利用了对比学习 [9、11、12、14、28、29、51]。这个想法是通过数据增强生成同一图像的两个视图，然后最小化它们表示的距离，同时可选地最大化到其他图像的距离 [11、29]。对比学习的一个缺点是它需要大量的反例，这意味着大批量大小 [11] 或使用内存库 [29]。为了解决此类对比方法的高计算成本问题，最近提出了几种方法来消除对负样本的依赖 [8、13、14、26]。

视频中的自监督学习。自监督视频表示学习的几种方法侧重于预测时空排序任务 [1、23、31、33、38、43、57、58、68、70、71]。其他方法利用节奏和速度等时间线索来定义自我监督的借口任务（pretext tasks）[5、66]。就像在图像领域一样，最近的方法 [20、27、50] 采用对比学习目标。我们的方法也属于对比方法的范畴。与之前的对比视频方法相比，我们提出了一种对比公式，其中从短片段和长片段生成正对，这两个片段都是从同一视频中采样的。这促使我们的模型学习捕捉全局视频级上下文的简短片段级表示。

与我们自己最密切相关的方法是 BraVe 系统 [51]。BraVe 拥有相同的基本思想，即训练模型以将同一视频的长（宽）视图与短（窄）视图相匹配。然而，我们的工作在几个方面有所不同。首先，我们的主要重点是利用自监督学习作为训练视频 Transformer 的手段，而无需标记图像数据，而 BraVe 则应用于 3D CNN。视频 Transformer 正在成为 3D CNN 的竞争替代品。然而，如前所述，它们受到需要基于图像的监督预训练的限制。因此，我们认为这是一个需要及时解决的重要且及时的问题。此外，我们注意到我们的 LSTCL 比 BraVe 简单得多：虽然我们的模型使用共享参数、单个投影网络和单个预测网络，但 BraVe 需要单独的主干、单独的投影网络和两个视图的单独的预测网络。为了达到最佳性能；此外，虽然 LSTCL 可以应用于任何传统的对比损失（正如我们对 MoCo v3、BYOL 和 SimSiam 的实验所证明的那样），但 BraVe 使用两个特定回归目标的组合（从宽到窄和从窄到宽）并对两个视图采用不同的增强策略。尽管我们的学习公式非常简单，但我们证明它可以提供令人印象深刻的结果，将视频 Transformer 的准确性提升到具有挑战性的动作分类基准的最先进水平，而无需任何监督图像级预训练。

Transformers in Vision。基于 Transformer 的模型 [15、61] 目前定义了大多数自然语言处理 (NLP) 任务的最新技术。同样，也有几次尝试采用基于 Transformer 的架构来解决视觉问题。最初，这些尝试侧重于将卷积与自注意力混合的架构 [7、32、67、69、72]。最近推出的 Vision Transformer（ViT）[16] 已经证明，使用无卷积架构可以获得有竞争力的图像分类结果。为了提高原始 ViT 的数据效率方面，Touvron 等人 [59] 提出了一种基于蒸馏的训练方法。最后，最近推出的 Swin transformer [39] 通过使用局部而不是全局自注意力显着减少了参数的数量和 ViT 的成本。

ViT 模型还通过引入不同形式的时空自注意力来适应视频领域 [2、3、6、49]。然而，由于它们的参数数量众多，这些模型通常需要大量的训练数据，这些数据通常以大规模标记数据集（例如 ImageNet 或 JFT）的形式出现。为了解决这个问题，Fan 等人 [17] 引入了多尺度视觉 Transformer（MViT），它使用的参数数量少得多，并且可以从头开始成功训练。我们没有像 MViT 那样降低模型容量，而是证明可以通过我们提出的 LSTCL 自监督学习框架在没有任何外部数据的情况下训练大容量视频 Transformer 模型。

3. Video Transformers

最近已经进行了几次将 ViT 扩展到视频领域的尝试 [2、3、6、17、49]。大多数视频 Transformer 都有共同的原则，我们将在下面进行回顾。然后，我们讨论区分我们实验中考虑的视频 Transformer 的具体设计。

3.1. 概述

线性和位置嵌入。每个 patch $\boldsymbol{p}_{\left(i,t\right)}$ 线性嵌入到通过可学习矩阵 $W\in\mathbb{R}^{D\times\left(P^2\cdot C\right)}$ 和可学习向量 $\boldsymbol{e}_{\left(i,\ t\right)}\in\mathbb{R}^D$ 获得的特征向量 $\boldsymbol{z}_{\left(i,\ t\right)}^0\in\mathbb{R}^D$ 中表示时空位置嵌入： $\boldsymbol{z}_{\left(i,\ t\right)}^0=W_{\boldsymbol{p}_{\left(i,\ t\right)}}+\boldsymbol{e}_{\left(i,\ t\right)}$ 。

多头自注意力。多头自注意力（MHA）是 Transformer 的关键组成部分。它实现了每个 patch 的查询键值计算，并且在每个块 $\ell$ 内与层归一化 [4]（LN）和多层感知器（MLP）交错。因此，块 $\ell$ 中的 patch 的中间表示 $z^\ell$ 是从前一个块中的特征获得的，如下所示：

公式 1

公式 2

分类。与 BERT [15] 一样，在输入序列的开头添加了分类标记 $\boldsymbol{p}_{\left(0,\ 0\right)}$ 。在网络的最后一层，具有 softmax 激活函数的线性层附加到分类标记，以输出最终的分类概率。

3.2. TimeSformer

TimeSformer [6] 将 ViT [16] 扩展到视频领域。它使用两个独立的多头注意力块进行空间和时间自注意力。如图 1 所示，空间自注意力仅将查询 patch 与出现在同一帧中的图像 patc h进行比较。相反，时间自注意力将查询 patch 与相同空间位置但来自其他帧的图像 patch 进行比较。与视频所有 patch 对的密集比较相比，空间和时间上的分解极大地降低了自注意力的成本。因此，特征表示计算如下：

公式 3

图 1

图 1. TimeSformer [6] 和 Space-Time (ST) Swin Transformer 中的自我注意机制的图示。图中的每一列描绘了一个不同的自注意力块。在自注意力计算过程中比较具有相同颜色的 patch。

3.3. Space-Time Swin Transformer

与 ViT 相比，Swin Transformer [39] 在局部应用自注意力。通过聚合每层局部邻域的信息来分层学习特征。在这里，我们将最初为静态图像引入的 Swin Transformer 改编为视频。我们将这个新变体命名为时空 Swin Transformer（ST Swin）。ST Swin 没有考虑图像块的 2D 邻域进行自注意力计算，而是使用局部 3D 时空体积。具体来说，正如原始论文 [39] 中所提出的，ST Swin 使用了两种截然不同的自我注意机制：均匀划分和移位划分（uniform partition and shifted partition）。在我们的例子中，这两种自注意力机制都通过考虑局部 patch 邻域的时间维度来适应视频。如图 1 所示，均匀划分将整个片段分成 4 个不重叠的 3D 部分，每个部分共享相同的分区索引。然后在具有相同分区索引的图像块之间计算时空自注意力。类似地，移位划分生成多个不同比例的非重叠 3D 部分，并且比较每个部分内的时空 patch 以进行自注意力计算。均匀分区和移位分区堆叠形成两个连续的注意力块，实现跨窗口连接，进一步提高模型容量。因此，ST Swin Transformer的每一层 $\ell$ 中执行的完整变换可以总结如下：

公式 4

我们采用 Swin [39] 中使用的 3D 相对位置嵌入和 patch 合并策略。然而，我们仅沿着空间轴合并图像块，同时通过层保持固定的时间分辨率。

4. 长短时间对比学习

概述。视频 Transformer 已被证明在远程时间建模方面特别有效 [6]。我们的目标是设计一个利用这一特性的对比学习框架。我们提出的长短时间对比学习（LSTCL）框架将从同一视频中采样的一对片段（一个长片段和一个短片段）作为输入。该过程训练视频 Transformer 将短片段的表示与长片段的表示相匹配。这迫使模型从一个小的时间窗口预测未来和过去，这有利于捕获视频的总体结构。下面我们描述与 LSTCL 相关的具体细节。

给定一批 $B$ 未标记的训练视频，我们从每个视频中随机抽取一个短片段和一个长片段。虽然长片段和短片段都包含总共 $T$ 帧，但我们使用截然不同的采样时间步幅 $\tau_S$ 和 $\tau_L$ ，其中 $\tau_S<\tau_L$ ，以便长片段覆盖比短片段更长的时间范围。批次 $B$ 中的短片段集和长片段集分别表示为 $X_S=\left\{x_S^1,\ x_S^2,\ ...x_S^B\right\}$ 和 $X_L=\left\{x_L^1,\ x_L^2,\ ...x_L^B\right\}$ ，其中 $x_S^i$ 和 $x_L^i$ 表示从批次中的第 $i$ 个示例中采样的短片段和长片段。一组短片段由编码器 $f_q$ 处理以产生一组 “查询” 示例 $Q=\left\{q^1,\ q^2,\ ...q^B\right\}$ 其中 $q^i=f_q\left(x_S^i\right)\in\mathbb{R}^D$ 。长片段集由单独的编码器 $f_k$ 处理以产生 “键” 示例 $K=\left\{k^1,\ k^2,\ ...k^B\right\}$ 。我们优化编码器，为由同一视频中的长片段和短片段组成的对生成相似的查询键表示，并为长片段和短片段从不同视频中采样的情况生成不同的表示。这是通过在集合 $Q$ 和 $K$ 上采用 InfoNCE [46] 损失来实现的：

公式 5

其中 $\rho$ 是控制输出分布锐度的温度超参数。正如通常所做的那样 [8、13、14、26]，我们将损失函数对称化。在我们的例子中，这是通过将长片段和短片段的角色颠倒而获得的对偶项之上的损失项添加到损失项之上来实现的，即通过计算来自长片段的查询 $q^i=f_q\left(x_L^i\right)$ 和来自短片段的键 $k^i=f_k\left(x_S^i\right)$ 。编码器 $f_q$ 由一个视频 Transformer 主干、一个 MLP 投影头和一个额外的预测 MLP 头组成。预测层的目的是转换查询片段的表示以匹配键。编码器 $f_k$ 由一个视频 Transformer 主干和一个 MLP 投影头组成。我们的实验展示了通过不同的对比学习优化获得的结果，以更新 $f_q$ 和 $f_k$ 的参数。在我们基于 MoCo v3 [14] 的默认优化的情况下， $f_q$ 的参数通过反向传播最小化 $\mathcal{L}_{NCE}$ 进行更新，而 $f_k$ 的参数更新为 $f_q$ 参数的移动平均值。我们建议读者参考我们的补充材料，了解基于我们实验中考虑的其他对比学习框架（BYOL 和 SimSiam）进行优化的详细信息。

片段采样策略。由于我们希望我们的模型能够从短片段的简短范围推断出整个视频中观察到的上下文，因此我们建议独立于每个视频随机采样长片段和短片段。通过这样做，学习无法利用两个片段之间的任何同步性，并且因为每对长短样本的时间偏移都是随机的，所以优化将迫使短片段表示尽可能多地对整个视频上呈现的上下文进行编码。为了证明随机独立抽样的价值，在我们的消融研究中，我们将这种策略（称为 “随机独立”）与两种替代方案进行了对比。第一个称为 “随机包含”，包括对短片段进行随机采样，但使其完全落在长片段（首先随机采样）所跨越的时间范围内。第二个名为 “随机不相交”，随机对两个片段进行采样，但它强制要求它们根本不能重叠，即它们完全不相交。我们请读者参考我们的实验，这些实验验证了我们的假设，即随机独立采样确实是视频 Transformer 的长短时间对比学习的优越策略。

实施细节。我们在三种不同且流行的对比学习框架下实现 LSTCL：BYOL [26]、MoCo v3 [14] 和 SimSiam [13]。对于训练，我们采用[20]中描述的视频数据增强，使用从视频中采样的大小为 224×224×8 的片段。我们试验了两种视频 Transformer 架构：具有分时空注意力的 TimeSformer [6] 和我们对视频的 Swin-B 模型 [39] 的改编（SpaceTime Swin）。我们使用 AdamW [42] 优化器，它通常用于训练视觉 Transformer 模型 [2、3、6、9、14、16、59]。在我们的默认设置中，我们在前 40 个时期使用线性预热（linear warm-up）[24] 在 Kinetics400 [34] 的 240K 视频上训练 LSTCL 200 个时期。我们在预热后应用余弦衰减时间表 [41]，学习率设置为 $lr\times BatchSize/256$ 。我们采用 [14] 中的基础学习率和权重衰减。我们的实验在 64 个 V100 GPU 上运行，并在 Pytorch [47] 中进行了分布式训练。训练 200 个 epoch 大约需要三天时间。

5. 实验

我们在几个动作识别基准上评估了我们提出的 LSTCL：Kinetics-400 [34]、Kinetics600 [10]、Something-Something-V2 [25]（SSv2）、HMDB [37] 和 UCF101 [56]。我们的实验设置如下。首先，我们在 Kinetics-400 上使用 $T = 8$ 帧的片段进行自监督 LSTCL 预训练，但对短视图和长视图使用不同的时间采样步幅，以便两个视图在几秒内有效地跨越不同长度的时间范围。之后，我们在这三个数据集的每一个上以完全监督的方式对 LSTCL 预训练模型进行 200 次微调。在推理过程中，我们从每个视频中均匀采样 5 个带有中心裁剪的片段，并对样本级预测进行平均以执行视频级分类。在下面的消融研究中，除非另有说明，我们采用 TimeSformer 作为 LSTCL 的骨干，输入片段大小为 8×224×224。

5.1. 消融研究

时间范围的重要性。我们首先取消了用于自监督训练的 $\tau_S$ 和 $\tau_L$ 的选择，同时将微调时间步幅固定为值 $\tau=8$ （即从随机帧开始，从视频中每 8 采样一帧）。图 2 显示了 $\tau_S$ 和 $\tau_L$ 的不同组合如何影响 Kinetics-400 上的最终视频级精度。为了便于解释，我们将结果的可视化分为 4 个不同的图，代表 $\tau_S$ 的 4 个不同值： $\tau_S\in\left\{4,\ 8,\ 16,\ 32\right\}$ 。每个图都显示了长片段的不同时间步长值 $\tau_L$ 的最终视频级精度如何变化，其中 $\tau_L\geq\tau_S$ 且 $\tau_S$ 保持固定。从这些结果中我们可以得出两个重要的结论。首先，对于 $\tau_S$ 的每次选择，两个步幅之间的差距越大（即 ${\tau_L-\tau}_S$ 的值越大），准确性越高。这可以从前三个图中看出，其中从 ${\tau_L=\tau}_S$ 的初始值开始，随着 $\tau_L$ 的增大，精度曲线单调增加。这验证了在自监督预训练期间对比不同时间长度的视图的重要性。第二个观察结果是，当 $\tau_S=8$ 且 $\tau_L=32$ 时，我们的模型表现最佳。这个结果具有直观意义，因为使用 $\tau_S=8$ 采样的短片段在时间上足够长，可以预测长片段的上下文；同时它足够短，允许该方法使用明显更长的长视图（最多比短视图长 4 倍）。相反，选择较大的 $\tau_S$ 值（即 16 或 32）会减少两个视图之间的最大可能差距 ${\tau_L-\tau}_S$ ，而选择较小的 $\tau_S$ 值（即 4）则会由于短片过于简短而导致两个视图之间的对比学习过于困难。

图 2

图 2. 我们研究了 LSTCL 中短视图和长视图（由 τS 和 τL 控制）的时间范围如何影响 Kinetics-400 上的视频级精度。我们可以看到，对于 τS 的每种选择，随着长步幅 τL 的增大，精度单调增加。当 τS=8 和 τL=32 时获得最佳结果，对应于长视图比短视图长 4 倍。

在表 1 中，我们包括了与每个训练视频片段随机采样 $\tau_S$ 和 / 或 $\tau_L$ 的设置相对应的附加性能点。具体来说，表中的第一行显示了当 $\tau_S=4$ 且 $\tau_L$ 从 ${8,\ 16,\ 32}$ 中随机采样时我们系统的性能；第二行代表相反的设置，其中 $\tau_L$ 保持固定 $(\tau_L=32)$ ，而 $\tau_S$ 是从 ${4,\ 8,\ 16}$ 中随机采样的；第三行的设置与第一行类似，但 $\tau_S=8$ ；第四行显示与第二行相同的设置，但不包括 $\tau_S=4$ ；第五行和第六行显示了为每个训练视频片段随机选择两个时间步幅的配置，且满足 $\tau_S\le\tau_L$ 。和以前一样，我们将微调时间步长固定为值 $\tau=8$ 。表 1 中的结果清楚地表明，在长片段和短片段的时间范围选择中添加随机性并不会提高性能。当 $\tau_S=8$ 且 $\tau_L=32$ （如最后一行所示）时，仍可实现最佳性能。因此，我们将此设置用于所有后续实验。

表 1

表 1. 我们分析了随机采样 τS 和 / 或 τL（分别针对短片段和长片段）的潜在好处。在使用 MoCo v3 的 LSTCL 系统进行预训练后，在 Kinetics400 上测量视频级分类的准确性。对于 τS=8 和 τL=32 的固定值，仍然可以获得最佳结果。

现在我们转而研究微调步长 $\tau$ 对视频级精度的影响。图 3 中的两个图显示了当我们针对两种不同的 $\tau_S$ 选择（左图中 $\tau_S=4$ ，右图中 $\tau_S=8$ ）更改 $\tau$ 值（在水平轴上）时，Kinetics-400 上的准确度如何变化。每个图中的不同曲线对应于 $\tau_L$ 的不同选择。我们看到，将微调步长设置为 $\tau=8$ 往往会在 $\tau_S$ 和 $\tau_L$ 的所有可能选择中产生最佳结果。这是有道理的，因为当 $\tau=8$ 时，5 个推理片段足够短而不会重叠，因此它们为视频级分类提供了补充信息。同时， $\tau=8$ 意味着推理片段足够长，可以自行产生良好的分类。

图 3

图 3. 这些图显示了 Kinetics-400 上针对用于监督微调和测试时间推断的时间采样步幅 τ 的不同值的视频级精度。

不同的对比学习框架。接下来，我们研究不同对比学习框架在 LSTCL 系统中的效果。具体来说，我们尝试了三种最新的方法：BYOL、MoCo v3 和 SimSiam。图 4 显示，从长远来看，较大的时间步长 $\tau_L$ 可以提高所有这三个框架的准确性。具体来说，与 $\tau_L=\tau_S=8$ 的设置相比，设置 $\tau_L=32$ 会带来以下性能提升：BYOL +2.6%，MoCo v3 +3.1%，SimSiam +1.6%。SimSiam 较低的绝对性能可以用缺少动量编码器来解释，我们观察到它在使用 LSTCL 训练视频 Transformer 模型时很重要。因此，基于这些结果，对于所有后续实验，我们采用 MoCo v3 作为我们的基础学习框架。

图 4

图 4. 通过使用三种自监督策略的 LSTCL 预训练实现的 Kinetics-400 精度，长片段有两个可能的步幅值 (τL∈{8, 32})（短片段的步幅固定为 τS=8）。所有三种方法都受益于使用不同长度的视图（τL=32，而不是 τL=τS=8）。

参数共享和对比损失。在这里，我们消除了 LSTCL 和 BraVe [51] 之间的两个主要区别。1）BraVe 有两个独立的 backbone，projectors 和 predictors，分别定义了 broad stream 和 narrow stream。相反，我们的 LSTCL 采用具有共享参数的在线和动量编码器。2）BraVe 中的每个流都专门处理特定类型的视图（无论是宽视图还是窄视图）。训练是通过两个回归目标的组合来完成的（一个从宽到窄的映射，另一个沿着相反的方向映射）。在 LSTCL 中，单个编码器采用两种视图。我们的模型使用单个对比损失进行了优化，从而最大限度地减少了两个视图之间的差异。

在表 2 中，我们针对上述差异 1）和 2）介绍了 LSTCL 的消融结果。对于 1），我们修改 LSTCL 以对两个视图使用不同的网络（独立的骨干网和投影仪），就像在 BraVe 中一样。2）除了使用单独的网络外，我们还在 LSTCL 中采用了来自 BraVe 的数据馈送和学习目标。从结果中可以看出，与这两种替代设置相比，LSTCL（第一行）仅用一半的参数数量即可实现卓越的性能。

表 2

表 2. 我们通过评估对 Kinetics-400 的影响，将我们提出的方法（第一行）与 BraVe [51] 中提出的权重共享和损失进行比较。

LSTCL 中的片段采样策略。在表 3 中，我们研究了不同片段采样策略的效果。这些结果表明随机独立抽样在我们的设置中效果最好。直觉上，这是有道理的，因为它迫使我们的模型外推到任意视频视图。

表 3

表 3. Kinetics-400 上 LSTCL 不同片段采样策略的比较。在这些实验中，我们使用 τS=8 和 τL=32 进行 LSTCL，使用 τ=8 进行微调。

视频 Transformer。在表 4 中，我们比较了三种不同的视频 Transformer 架构的性能：TimeSformer、Swin 和 Space-Time (ST) Swin。我们在 Kinetics-400 上的三种不同场景下训练每个模型：1）从头开始（无预训练），2）在大规模 ImageNet-1K 数据集上使用监督预训练，3）使用我们的自监督 LSTCL 预训练。我们可以看到，在这三种训练策略中，我们的 LSTCL 预训练提供了最高的准确度，优于对所有三种架构使用大规模监督 ImageNet-1K 预训练的模型。

表 4

表 4. 使用 LSTCL 进行自监督预训练与在 ImageNet1K (IN-1K) 上从头开始训练和监督预训练进行比较。结果显示了三种视频Transformer架构在 Kinetics-400 上的视频分类准确性。

5.2. 与最先进的比较

对于我们的最终实验，我们采用了 Space-Time Swin 变换器，因为它在我们的消融研究中取得了最强的结果。为了与最先进的技术进行比较，我们还在 LSTCL 预训练和监督微调期间使用 $T = 16$ 帧的片段来训练模型。

即使在这种情况下，我们也将短片段的时间步长设置为 $\tau_S=4$ ，将长片段的时间步长设置为 $\tau_L=16$ 。Kinetics-400 和 Kinetics-600。在表 6 中，我们报告了 Kinetics-400 的结果，列出了每种方法的片段大小、准确性、推理成本（以 TFLOP 为单位）和参数数量。我们根据输入片段大小对方法进行分组，因为在较长片段或较高分辨率帧上训练的模型往往会产生更高的准确性。前两组包括在与我们系统使用的尺寸相同的片段上运行的模型（8×2242 和 16×2242）。可以看出，使用 LSTCL 预训练的 ST Swin 模型在使用相同输入片段大小且不使用额外数据的所有先前方法中实现了最高的准确度。此外，与之前在大规模标记数据集（表格底部）上进行全面监督预训练的视频 Transformer 模型相比，我们的方法仍然取得了有竞争力的结果，并且实际上通常会产生更好的准确性。最后，请注意，与从头开始训练我们的 ST Swin 模型相比，LSTCL 预训练使 Kinetics-400 显着提升了 8.7%。

表 5

表 5. UCF101 和 HMDB51 上的迁移学习结果。我们使用完整的微调设置来报告性能。我们的方法在 UCF101 和 HMDB51 上均优于之前最先进的方法。此外，我们的无监督 LSTCL 预训练方案比基于监督预训练的方法（在 IN-1K 和 K400 上）取得了更好的结果。

表 6

表 6. 与 Kinetics-400 的最新技术的比较。在使用与我们的模型相同的片段大小且没有额外数据（表中的前两组）的方法中，使用 LSTCL 预训练的 ST Swin 网络实现了最高的准确度，并且与使用更长或更高分辨率片段的模型相当（第三组）或利用额外数据进行监督预训练（底部组）。

表 7 显示了与 Kinetics-600 数据集上最新技术的比较。即使在这里，我们也看到使用 LSTCL 预训练的 ST Swin 在使用与我们的网络相同的片段大小的两组模型中实现了最佳精度。此外，与从头开始学习相比，LSTCL 产生了 7.3% 的增益。

表 7

表 7. Kinetics-600 的视频级精度。使用 LSTCL 训练的 ST Swin 模型在不使用额外数据或标签的情况下取得了与最先进技术相当的结果。

Something-Something-V2。在表 8 中，我们报告了 Something-Something-V2 数据集的性能。由于数据集相对较小，大多数现有方法都利用对外部数据集进行有监督的大规模预训练，以便在此基准上获得强大的性能。表中的结果突出表明，我们使用 LSTCL 在 Kinetics-400 上进行无标签预训练的 ST Swin 模型比在较大数据集上进行预训练并使用手动标记数据的方法获得了更高的准确度。此外，与从头开始训练的同一模型相比，我们的 LSTCL 预训练产生了 26.4% 的增益。这一显着改进是由于 SomethingSomething-V2 数据集需要彻底的时间推理才能获得良好的准确性。我们的 LSTCL 方法训练片段表示以预测整个视频的时间上下文，从而在该基准测试中产生巨大的优势。

表 8

表 8. Something-Something-V2 的视频级分类精度。我们的 ST Swin 模型在没有标签的情况下使用 LSTCL 进行预训练，产生的结果与最先进的水平相当。

HMDB51 和 UCF101。最后，我们评估了通过监督微调将 LSTCL 学习的无监督表示从 Kinetics-400 转移到 HMDB [37] 和 UCF101 [56] 的小规模数据集的能力。结果如表 5 所示，其中我们还包括通过 IN-1K 和 K400 上的完全监督预训练（使用类别标签）获得的准确度，以及最近的两种自监督方法 $\rho$ BYOL [20] 和 BraVe [51]。可以看出，LSTCL 在两个数据集上都执行了（i）之前最先进的无监督预训练方法，以及（ii）有监督预训练基线。

6. 结论

本文介绍了长短时间对比学习（LSTCL），一种用于视频 Transformer 的无监督预训练方案。通过对比从每个视频的长视图和短视图获得的表示，它迫使模型将整个视频的上下文编码为短片的特征。我们在三种不同的对比框架和两种视频 Transformer 架构下展示了我们的 LSTCL，其中包括一个新的变体 Space-Time Swin Transformer。在我们的实验中，我们表明，与在 ImageNet-21K 上进行完全监督的预训练相比，使用 LSTCL 进行的无监督预训练可以产生相似或更好的视频分类准确性，并且它在三个不同的视频分类基准上取得了有竞争力的结果。LSTCL 有效地消除了视频 Transformer 中大规模监督图像预训练的需要。

参考文献

[1] Pulkit Agrawal, Joao Carreira, and Jitendra Malik. Learning to see by moving. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2
[2] Hassan Akbari, Linagzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, and Boqing Gong. Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text. arXiv preprint arXiv:2104.11178, 2021. 2, 3, 4, 8
[3] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luciˇ c, and Cordelia Schmid. Vivit: A video vi- ´ sion transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 6836– 6846, October 2021. 1, 2, 3, 4, 8
[4] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016. 3
[5] Sagie Benaim, Ariel Ephrat, Oran Lang, Inbar Mosseri, William T Freeman, Michael Rubinstein, Michal Irani, and Tali Dekel. Speednet: Learning the speediness in videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9922–9931, 2020. 2
[6] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. Is space-time attention all you need for video understanding? In Marina Meila and Tong Zhang, editors, Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event, volume 139 of Proceedings of Machine Learning Research, pages 813–824. PMLR, 2021. 1, 2, 3, 4, 7, 8
[7] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In European Conference on Computer Vision, pages 213–229. Springer, 2020. 2
[8] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, and Armand Joulin. Unsupervised learning of visual features by contrasting cluster assignments. arXiv preprint arXiv:2006.09882, 2020. 2, 4
[9] Mathilde Caron, Hugo Touvron, Ishan Misra, Herve J ´ egou, ´ Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. arXiv preprint arXiv:2104.14294, 2021. 1, 2, 4
[10] Joao Carreira and Andrew Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6299–6308, 2017. 5
[11] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In International conference on machine learning, pages 1597–1607. PMLR, 2020. 2
[12] Xinlei Chen, Haoqi Fan, Ross Girshick, and Kaiming He. Improved baselines with momentum contrastive learning. arXiv preprint arXiv:2003.04297, 2020. 2
[13] Xinlei Chen and Kaiming He. Exploring simple siamese representation learning. arXiv preprint arXiv:2011.10566, 2020. 2, 4
[14] Xinlei Chen, Saining Xie, and Kaiming He. An empirical study of training self-supervised visual transformers. arXiv preprint arXiv:2104.02057, 2021. 2, 4, 5
[15] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. 1, 2, 3
[16] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. 1, 2, 3, 4
[17] Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, and Christoph Feichtenhofer. Multiscale vision transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 6824–6835, October 2021. 3, 8
[18] Christoph Feichtenhofer. X3d: Expanding architectures for efficient video recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 203–213, 2020. 8
[19] Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and Kaiming He. Slowfast networks for video recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6202–6211, 2019. 8
[20] Christoph Feichtenhofer, Haoqi Fan, Bo Xiong, Ross B. Girshick, and Kaiming He. A large-scale study on unsupervised spatiotemporal representation learning. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19-25, 2021, pages 3299–3309. Computer Vision Foundation / IEEE, 2021. 2, 4, 7, 8
[21] Ian Goodfellow, Yoshua Bengio, Aaron Courville, and Yoshua Bengio. Deep learning, volume 1. MIT press Cambridge, 2016. 1
[22] Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. arXiv preprint arXiv:1406.2661, 2014. 1
[23] Ross Goroshin, Joan Bruna, Jonathan Tompson, David Eigen, and Yann LeCun. Unsupervised learning of spatiotemporally coherent metrics. In Proceedings of the IEEE international conference on computer vision, pages 4086– 4093, 2015. 2
[24] Priya Goyal, Piotr Dollar, Ross Girshick, Pieter Noord- ´ huis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, and Kaiming He. Accurate, large minibatch sgd: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677, 2017. 5
[25] Raghav Goyal, Samira Ebrahimi Kahou, Vincent Michalski, Joanna Materzynska, Susanne Westphal, Heuna Kim, Valentin Haenel, Ingo Fruend, Peter Yianilos, Moritz Mueller-Freitag, et al The” something something” video database for learning and evaluating visual common sense. In Proceedings of the IEEE International Conference on Computer Vision, pages 5842–5850, 2017. 5
[26] Jean-Bastien Grill, Florian Strub, Florent Altche, Corentin ´ Tallec, Pierre H Richemond, Elena Buchatskaya, Carl Do-ersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, et al Bootstrap your own latent: A new approach to self-supervised learning. arXiv preprint arXiv:2006.07733, 2020. 2, 4
[27] Tengda Han, Weidi Xie, and Andrew Zisserman. Video representation learning by dense predictive coding. In Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops, pages 0–0, 2019. 2
[28] Tengda Han, Weidi Xie, and Andrew Zisserman. Selfsupervised co-training for video representation learning. In Neurips, 2020. 2
[29] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9729–9738, 2020. 2
[30] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. 1
[31] Kai Hu, Jie Shao, Yuan Liu, Bhiksha Raj, Marios Savvides, and Zhiqiang Shen. Contrast and order representations for video self-supervised learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7939–7949, 2021. 2
[32] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. Ccnet: Criss-cross attention for semantic segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 603–612, 2019. 2
[33] Phillip Isola, Daniel Zoran, Dilip Krishnan, and Edward H. Adelson. Learning visual groups from co-occurrences in space and time. CoRR, abs/1511.06811, 2015. 2
[34] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, et al The kinetics human action video dataset. arXiv preprint arXiv:1705.06950, 2017. 5
[35] Nikos Komodakis and Spyros Gidaris. Unsupervised representation learning by predicting image rotations. In International Conference on Learning Representations (ICLR), 2018. 2
[36] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25:1097–1105, 2012. 1
[37] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre. HMDB: a large video database for human motion recognition. In Proceedings of the International Conference on Computer Vision (ICCV), 2011. 5, 7
[38] Yang Liu, Keze Wang, Lingbo Liu, Haoyuan Lan, and Liang Lin. Tcgl: Temporal contrastive graph for self-supervised video representation learning. IEEE Transactions on Image Processing, 31:1978–1993, 2022. 2
[39] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030, 2021. 2, 3, 4
[40] Zhaoyang Liu, Donghao Luo, Yabiao Wang, Limin Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, and Tong Lu. Teinet: Towards an efficient architecture for video recognition. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 11669–11676, 2020. 8
[41] Ilya Loshchilov and Frank Hutter. Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016. 5
[42] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017. 4
[43] Ishan Misra, C. Lawrence Zitnick, and Martial Hebert. Shuffle and learn: Unsupervised learning using temporal order verification. In Proceedings of (ECCV) European Conference on Computer Vision, pages 527 – 544, October 2016. 2
[44] Daniel Neimark, Omri Bar, Maya Zohar, and Dotan Asselmann. Video transformer network. arXiv preprint arXiv:2102.00719, 2021. 1
[45] Mehdi Noroozi and Paolo Favaro. Unsupervised learning of visual representations by solving jigsaw puzzles. In European conference on computer vision, pages 69–84. Springer, 2016. 2
[46] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018. 4
[47] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al Pytorch: An imperative style, high-performance deep learning library. arXiv preprint arXiv:1912.01703, 2019. 5
[48] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A Efros. Context encoders: Feature learning by inpainting. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2536–2544, 2016. 2
[49] Mandela Patrick, Dylan Campbell, Yuki M Asano, Ishan Misra Florian Metze, Christoph Feichtenhofer, Andrea Vedaldi, Jo Henriques, et al Keeping your eye on the ball: Trajectory attention in video transformers. Advances in neural information processing systems, 2012. 2, 3, 8
[50] Rui Qian, Tianjian Meng, Boqing Gong, Ming-Hsuan Yang, Huisheng Wang, Serge J. Belongie, and Yin Cui. Spatiotemporal contrastive video representation learning. CoRR, abs/2008.03800, 2020. 2
[51] Adria Recasens, Pauline Luc, Jean-Baptiste Alayrac, Luyu ` Wang, Florian Strub, Corentin Tallec, Mateusz Malinowski, Viorica Patr ˘ aucean, Florent Altch ˘ e, Michal Valko, Jean- ´ Bastien Grill, Aaron van den Oord, and Andrew Zisserman. ¨ Broaden your views for self-supervised video learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 1255–1265, October 2021. 2, 6, 7
[52] Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, and Lihi Zelnik-Manor. Imagenet-21k pretraining for the masses. arXiv preprint arXiv:2104.10972, 2021. 1
[53] Gilad Sharir, Asaf Noy, and Lihi Zelnik-Manor. An image is worth 16x16 words, what is a video worth? arXiv preprint arXiv:2103.13915, 2021. 8
[54] Karen Simonyan and Andrew Zisserman. Two-stream convolutional networks for action recognition in videos. arXiv preprint arXiv:1406.2199, 2014. 1
[55] Jingkuan Song, Hanwang Zhang, Xiangpeng Li, Lianli Gao, Meng Wang, and Richang Hong. Self-supervised video hashing with hierarchical binary auto-encoder. IEEE Transactions on Image Processing, 27(7):3210–3221, 2018. 2
[56] Khurram Soomro, Amir Roshan Zamir, and Mubarak Shah. UCF101: A dataset of 101 human action classes from videos in the wild. In CRCV-TR-12-01, 2012. 5, 7
[57] Nitish Srivastava, Elman Mansimov, and Ruslan Salakhudinov. Unsupervised learning of video representations using lstms. In Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research, pages 843–852, Lille, France, 07–09 Jul 2015. PMLR. 2
[58] Li Tao, Xueting Wang, and Toshihiko Yamasaki. Selfsupervised video representation learning using inter-intra contrastive framework. In Proceedings of the 28th ACM International Conference on Multimedia, pages 2193–2201, 2020. 2
[59] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Herve J ´ egou. Training ´ data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020. 1, 2, 4
[60] Du Tran, Heng Wang, Lorenzo Torresani, and Matt Feiszli. Video classification with channel-separated convolutional networks. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5552–5561, 2019. 8
[61] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. arXiv preprint arXiv:1706.03762, 2017. 1, 2
[62] Pascal Vincent, Hugo Larochelle, Yoshua Bengio, and Pierre-Antoine Manzagol. Extracting and composing robust features with denoising autoencoders. In Proceedings of the 25th international conference on Machine learning, pages 1096–1103, 2008. 2
[63] Heng Wang, Du Tran, Lorenzo Torresani, and Matt Feiszli. Video modeling with correlation networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 352–361, 2020. 8
[64] Jue Wang and Anoop Cherian. Learning discriminative video representations using adversarial perturbations. In Proceedings of the European Conference on Computer Vision (ECCV), pages 685–701, 2018. 1
[65] Jue Wang and Anoop Cherian. Gods: Generalized one-class discriminative subspaces for anomaly detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 8201–8211, 2019. 1
[66] Jiangliu Wang, Jianbo Jiao, and Yun-Hui Liu. Selfsupervised video representation learning by pace prediction. In European conference on computer vision, pages 504–521. Springer, 2020. 2
[67] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018. 2
[68] Xiaolong Wang and Abhinav Gupta. Unsupervised learning of visual representations using videos. In 2015 IEEE International Conference on Computer Vision (ICCV), pages 2794–2802, 2015. 2
[69] Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, and Huaxia Xia. End-toend video instance segmentation with transformers. arXiv preprint arXiv:2011.14503, 2020. 2
[70] Dejing Xu, Jun Xiao, Zhou Zhao, Jian Shao, Di Xie, and Yueting Zhuang. Self-supervised spatiotemporal learning via video clip order prediction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10334–10343, 2019. 2
[71] Ting Yao, Yiheng Zhang, Zhaofan Qiu, Yingwei Pan, and Tao Mei. Seco: Exploring sequence supervision for unsupervised representation learning. In AAAI, volume 2, page 7, 2021. 2
[72] Li Zhang, Dan Xu, Anurag Arnab, and Philip HS Torr. Dynamic graph message passing networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3726–3735, 2020. 2