【视频理解】2021-ICML-时空注意力是视频理解所需要的全部吗？

念啊啊啊啊丶

已于 2023-03-27 21:53:02 修改

阅读量885

点赞数 1

分类专栏：视频理解文章标签：深度学习人工智能机器学习计算机视觉神经网络

于 2023-03-22 17:49:20 首次发布

本文链接：https://blog.csdn.net/weixin_42475026/article/details/129703763

版权

视频理解专栏收录该内容

6 篇文章

订阅专栏

2021-ICML-Is Space-Time Attention All You Need for Video Understanding?

时空注意力是视频理解所需要的全部吗？

时空注意力是视频理解所需要的全部吗？

论文地址
 代码地址

摘要

我们提出了一种无卷积的视频分类方法，该方法完全建立在空间和时间上的自注意力之上。我们的方法名为 “TimeSformer”，通过直接从一系列帧级块（patch）中启用时空特征学习，使标准 Transformer 架构适应视频。我们的实验研究比较了不同的自注意力方案，并表明 “分散注意力”，即在每个块内分别应用时间注意力和空间注意力，在所考虑的设计选择中导致最佳视频分类精度。尽管采用了全新的设计，TimeSformer 在多个动作识别基准测试中取得了最先进的结果，包括 Kinetics-400 和 Kinetics-600 上报告的最佳准确度。最后，与 3D 卷积网络相比，我们的模型训练速度更快，可以实现更高的测试效率（精度略有下降），也可以应用于更长的视频片段（clip）（超过一分钟）。代码和模型可在以下网址获得：https://github.com/facebookresearch/TimeSformer。

1. 引言

在过去的几年中，自然语言处理（NLP）领域因基于自我注意的方法的出现而发生了革命性的变化（Vaswani et al, 2017a）。由于它们在捕获单词之间的远程依赖性以及训练可扩展性方面的出色能力，自注意力架构（例如 Transformer 模型）代表了广泛的语言任务的当前最新技术水平，包括机器翻译（Ott et al, 2018; Chen et al, 2018a）、问答（Devlin et al, 2019; Dai et al, 2019）和自回归词生成（Radford et al, 2019; Brown et al, 2020）。

视频理解与 NLP 有几个高级相似之处。首先，视频和句子都是有顺序的。此外，正如一个单词的含义通常只能通过将其与句子中的其他单词联系起来才能理解一样，可以认为短期片段中的原子动作需要与视频的其余部分结合起来，才能完全消除歧义。因此，人们期望来自 NLP 的远程自注意力模型对视频建模也非常有效。然而，在视频领域，2D 或 3D 卷积仍然是跨不同视频任务进行时空特征学习的核心算子（Feichtenhofer et al, 2019a; Teed & Deng, 2020; Bertasius & Torresani, 2020）。虽然自注意力在应用于卷积层之上时显示出好处（Wang et al, 2018a），但据我们所知，没有人试图将自我注意用作视频识别模型的唯一构建块。

在这项工作中，我们提出了一个问题，即是否可以通过用自注意力完全替换卷积运算符来构建一个高性能的无卷积视频架构。我们认为，这样的设计有可能克服用于视频分析的卷积模型的一些固有局限性。首先，虽然它们强大的归纳偏差（例如，局部连通性和平移等变性）无疑对小型训练集有益，但在数据充足且 “所有” 都可以从实例中学习的情况下，它们可能会过度限制模型的表达能力。与 CNN 相比，Transformers 施加的归纳偏置限制较少。这扩大了它们可以表示的函数系列（Cordonnier et al, 2020; Zhao et al, 2020），并使它们更适合现代大数据体系，在这些体系中不需要强归纳先验。其次，虽然卷积核是专门为捕获短程时空信息而设计的，但它们无法对超出感受野的依赖性进行建模。虽然深层卷积（Simonyan & Zisserman, 2015; Szegedy et al, 2015; Carreira & Zisserman, 2017）自然地扩展了感受野，但这些策略在通过聚合短程信息来捕获长程依赖方面存在固有的局限性。相反，自注意机制可以通过直接比较所有时空位置的特征激活来应用于捕获局部和全局长时间依赖关系，远远超出了传统卷积滤波器的感受野。最后，尽管 GPU 硬件加速取得了进步，但训练深度 CNN 的成本仍然很高，尤其是在应用于高分辨率和长视频时。最近在静止图像领域的工作（Dosovitskiy et al, 2020; Carion et al, 2020; Zhao et al, 2020）表明，与 CNN 相比，Transformer 具有更快的训练和推理速度，从而有可能在相同的计算预算下构建具有更大学习能力的模型。

受这些观察的启发，我们提出了一种完全基于自我关注的视频架构。我们通过将自注意力机制从图像空间扩展到时空 3D 体积，使图像模型 “Vision Transformer”（ViT）（Dosovitskiy et al, 2020）适用于视频。我们提出的名为 “TimeSformer”（来自 Time-Space Transformer）的模型将视频视为从各个帧中提取的一系列块（patch）。与在 ViT 中一样，每个块都被线性映射到一个嵌入（Embedding）中，并使用位置信息进行扩充。这使得将生成的向量序列解释为可以输入到 Transformer 编码器的标记嵌入（Token Embedding）成为可能，类似于从 NLP 中的单词计算出的标记（Token）特征。

标准 Transformer 中自注意力的一个缺点是它需要为所有标记对计算相似性度量。在我们的设置中，由于视频中有大量的块，因此计算成本很高。为了应对这些挑战，我们在时空体积上提出了几种可扩展的自注意力设计，并在大规模动作分类数据集上对它们进行了实证评估。在提出的方案中，我们发现最好的设计是以 “分散注意力” 架构为代表的，它在网络的每个块内分别应用时间注意力和空间注意力。与基于卷积的视频架构的既定范式相比，TimeSformer 采用了截然不同的设计。然而，它的准确性可与该领域的最新技术相媲美，在某些情况下甚至更胜一筹。我们还表明，我们的模型可用于跨越多分钟的视频的远程建模。

2. 相关工作

我们的方法受到最近使用自注意力进行图像分类的作品的影响，这些作品可以与卷积运算符结合使用，甚至可以完全替代它。在前一类中，非局部网络（Non-Local Networks）（Wang et al, 2018b）采用非局部均值，有效地概括了 Transformer 的自注意力功能（Vaswani et al, 2017b）。Bello 等人（Bello et al, 2019）提出了一种 2D 自注意力机制，它作为 2D 卷积的替代品具有竞争力，但在用于增强具有自注意力特征的卷积特征时会产生更强的结果。除了图像分类之外，关系网络（Hu et al, 2018）和 DETR（Carion et al, 2020）在卷积特征图之上使用自注意力来进行对象检测。

我们的方法与利用自注意力代替卷积的图像网络更密切相关（Parmar et al, 2018; Ramachandran et al, 2019; Cordonnier et al, 2020; Zhao et al, 2020）。由于这些作品使用单个像素作为查询，为了保持可管理的计算成本和较小的内存消耗，它们必须将自我注意的范围限制在局部邻域或在图像的大幅缩小版本上使用全局自我注意。可扩展到完整图像的替代策略包括稀疏键值采样（Child et al, 2019）或限制自注意力沿空间轴计算（Ho et al, 2019; Huang et al, 2019; Wang et al, 2020b). 我们实验中考虑的一些自注意力算子采用了类似的稀疏和轴向计算，尽管它被推广到时空体积。然而，我们方法的效率主要源于将视频分解为一系列帧级块，然后将这些 patch 的线性 Embedding 作为输入 token Embedding 提供给 Transformer。该策略最近在 Vision Transformers（ViT）（Dosovitskiy et al, 2020）中引入，经证明可在图像分类方面提供令人印象深刻的性能。在这项工作中，我们建立在 ViT 设计的基础上，并通过提出并根据经验比较几种可扩展的视频时空自注意力方案，将其扩展到视频。

虽然 Transformers 最近被用于视频生成（Weissenborn et al, 2020），但我们并不知道之前的视频识别架构使用自注意力作为唯一的构建块。然而，我们注意到，在动作定位和识别（Girdhar et al，2019）、视频分类（Wang et al，2018b；Chen et al，2018 b）和群体活动识别（Gavriyuk et al，2020）的卷积特征图之上，已经采用了Transformers。我们还注意到，有大量文献基于结合使用文本 Transformer 和视频 CNN 来解决各种视频语言任务，例如字幕（Zhou et al, 2018）、问答（Yang et al, 2020）和对话（Le et al, 2019）。最后，多模态视频文本转换器（Sun et al, 2019; Li et al, 2020a）也通过采用从语言领域改编的掩码标记借口任务，以无监督方式进行了训练或预训练（Devlin et al, 2018; Radford et al, 2018）。

3. TimeSformer 模型

Input clip。TimeSformer 将片段 $X\in\mathbb{R}^{H\times W\times3\times F}$ 作为输入，由从原始视频采样的 $F$ 个大小为 $H\times W$ 的 RGB 帧组成。

Decomposition into patches。按照 ViT（Dosovitskiy et al, 2020），我们将每个帧分解为 $N$ 个非重叠块，每个块的大小为 $P\times P$ ，这样 $N$ 个块跨越整个帧，即 $N=HW/P^2$ 。我们将这些块展平为向量 $x_{(p,t)}\in\mathbb{R}^{{3P}^2}$ ，其中 $p=1,\ .\ .\ .\ N$ 表示空间位置， $t=1,\ .\ .\ .\ F$ 描述帧索引。

Linear embedding。我们通过可学习矩阵 $E\in\mathbb{R}^{{D\times3P}^2}$ 将每个块 $x_{(p,t)}$ 线性映射到嵌入向量 $z_{(p,t)}^{(0)}\in\mathbb{R}^D$ ：

公式 1

其中 $e_{(p,t)}^{pos}\in\mathbb{R}^D$ 表示添加的可学习位置嵌入以编码每个块的时空位置。对于 $p=1,\ .\ .\ .,\ N$ ，所得到的向量 $z_{(p,\ t)}^{(0)}$ 的嵌入序列， $t=1,\ .\ .\ .,\ F$ 表示 Transformer 的输入，其作用类似于 NLP 中输入到文本 Transformer 的嵌入单词序列。与原始 BERT Transformer（Devlin et al, 2018）一样，我们在序列的第一个位置添加了一个特殊的可学习向量 $z_{(0,\ 0)}^{(0)}\in\mathbb{R}^D$ ，表示分类标记的嵌入。

Query-Key-Value computation。我们的 Transformer 由 $L$ 个编码块组成。在每个块 $\ell$ 上，查询 / 键 / 值向量从前一个块编码的表示 $z_{(p,\ t)}^{(\ell-1)}$ 中为每个块计算：

公式 2

公式 3

公式 4

其中 $\rm{LN\left(\right)}$ 表示 LayerNorm（Ba et al, 2016）， $a=1,\ .\ .\ .,\ \mathcal{A}$ 是多个注意力头（attention heads）的索引， $\mathcal{A}$ 表示注意力头的总数。每个注意力头的潜在维度设置为 $D_h=D/\mathcal{A}$ 。

Self-attention computation。自注意力权重是通过点积计算的。查询块 $(p,\ t)$ 的自注意力权重 $\alpha_{(p,\ t)}^{(\ell,\ a)}=\mathbb{R}^{NF+1}$ 由下式给出：

公式 5

其中 $\rm{SM}$ 表示 softmax 激活函数。请注意，当仅在一个维度上计算注意力时（例如，仅空间或仅时间），计算量会大大减少。例如，在空间注意力的情况下，只进行 $N + 1$ 次查询键比较，只使用与查询相同的帧中的键：

公式 6

Encoding。块 $\ell$ 处的编码 $z_{(p,\ t)}^{(\ell)}$ 是通过首先使用来自每个注意力头的自注意力系数计算值向量的加权和获得的：

公式 7

然后，来自所有头部的这些向量的串联被投影并通过 MLP 传递，在每个操作后使用残差连接：

公式 8

公式 9

Classification embedding。最终片段嵌入是从分类标记的最终块中获得的：

公式 10

在此表示之上，我们附加了一个 1-hidden-layer MLP，用于预测最终的视频类。

Space-Time Self-Attention Models。我们可以通过替换等式 5 为仅在每个帧内的空间注意力（等式 6）来降低计算成本。然而，这样的模型忽略了捕捉跨帧的时间依赖性。正如我们的实验所示，与全时空注意力相比，这种方法会导致分类准确度下降，尤其是在需要强时间建模的基准上。

我们提出了一种更有效的时空注意力架构，名为 “Divided Space-Time Attention”（用 $T + S$ 表示），其中时间注意力和空间注意力分别应用。该架构与图 1 中的空间注意力和联合时空注意力的架构进行了比较。图 2 给出了视频示例中不同注意力模型的可视化。对于分散注意力（Divided Attention），在每个块内，我们首先通过将每个块 $(p,\ t)$ 与其它帧中相同空间位置的所有块进行比较来计算时间注意力：

公式 11

应用等式 8 产生的时间注意力编码 ${z^\prime}_{(p,\ t)}^{(\ell)time}$ ，然后被反馈用于空间注意力计算，而不是传递给 MLP。换句话说，新的键 / 查询 / 值向量是从 ${z^\prime}_{(p,\ t)}^{(\ell)time}$ 获得的，然后使用等式 6 计算空间注意力。最后，将生成的向量 ${z^\prime}_{(p,\ t)}^{(\ell)space}$ 传递给方程式 9 的 MLP。计算块 $\ell$ 处的块的最终编码 $z_{(p,\ t)}^{(\ell)}$ 。对于分散注意力的模型，我们学习不同的查询 / 键 / 值矩阵 $\left\{W_{Q^{time}}^{(\ell,a)},\ W_{K^{time}}^{(\ell,a)},\ W_{V^{time}}^{(\ell,a)}\right\}$ 和 $\left\{W_{Q^{space}}^{(\ell,a)},\ W_{K^{space}}^{(\ell,a)},\ W_{V^{space}}^{(\ell,a)}\right\}$ 跨越时空维度。请注意，与方程式的联合时空注意模型所需的每个块的（ $NF + 1$ ）比较相比。Divided Attention 仅对每个块执行（ $N + F + 2$ ）次比较。我们的实验表明，这种时空分解不仅更有效，而且还能提高分类精度。

我们还试验了 “Sparse Local Global”（ $L + G$ ）和 “Axial”（ $T + W + H$ ）注意力模型。它们的架构如图 1 所示，而图 2 显示了这些模型考虑注意的块。对于每个块 $(p,\ t)$ ，（ $L + G$ ）首先通过考虑相邻的 $F\times H/2\times W/2$ 块来计算局部注意力，然后使用 2 个块的步幅沿时间维度和两个空间维度计算整个片段的稀疏全局注意力。因此，它可以被视为使用局部-全局分解和稀疏模式对完整时空注意力的更快近似，类似于（Child et al, 2019）中使用的那种。最后，“Axial” 注意力将注意力计算分解为三个不同的步骤：随时间、宽度和高度。（Ho et al, 2019; Huang et al, 2019; Wang et al, 2020b）提出了对图像两个空间轴的分解注意力，我们的（ $T + W + H$ ）添加了第三个维度（时间）视频的情况。所有这些模型都是通过为每个注意力步骤学习不同的查询 / 键 / 值矩阵来实现的。

图 1

图 1. 我们在这项工作中调查的视频自注意力块。每个注意力层在帧级patch的指定时空邻域上实现自注意力（Vaswani et al, 2017b）（邻域的可视化请参见图 2）。我们使用残差连接来聚合来自每个块内不同注意力层的信息。在每个块的末尾应用 1 个隐藏层 MLP。最终模型是通过将这些块反复堆叠在一起构建的。

图 2

图 2. 本工作中研究的五种时空自我注意方案的可视化。每个视频片段都被视为一系列大小为 16×16 像素的帧级块。为了便于说明，我们用蓝色表示查询块，并以非蓝色显示每个方案下的自注意力时空邻域。没有颜色的块不用于蓝色块的自注意力计算。方案中的多种颜色表示沿不同维度（例如，（T+S）的空间和时间）或不同邻域（例如，（L+G））分别应用的注意力。请注意，自注意力是针对视频片段中的每个块计算的，即每个块都用作查询。我们还注意到，虽然只显示了两个相邻帧的注意力模式，但它以相同的方式扩展到片段的所有帧。

4. 实验

我们在四个流行的动作识别数据集上评估 TimeSformer：Kinetics-400（Carreira & Zisserman, 2017）、Kinetics-600（Carreira et al, 2018）、Something-SomethingV2（Goyal et al, 2017b）和 Diving-48（Li et al, 2018）。我们采用在 ImageNet-1K 或 ImageNet-21K（Deng et al, 2009）上预训练的“基础”ViT 架构（Dosovitskiy 等人，2020 年），这是为每个实验指定的。除非另有说明，否则我们使用大小为 8×224×224 的片段clip，帧的采样率为 1/32。patch 大小为 16×16 像素。在推理过程中，除非另有说明，否则我们会在视频中间采样一个时间片段。我们使用时间片段中的 3 个空间裁剪（crops）（左上、中、右下），并通过对这 3 个裁剪的得分进行平均来获得最终预测。

4.1. 自我注意方案分析

对于第一组实验，我们从在 ImageNet-21K 上预训练的 ViT 开始。在表 1 中，我们展示了使用 TimeSformer 在 Kinetics-400（K400）和 SomethingSomething-V2（SSv2）上提出的五个时空注意方案获得的结果。首先，我们注意到具有纯空间注意力（S）的 TimeSformer 在 K400 上表现良好。这是一个有趣的发现。事实上，之前的工作（Sevilla-Lara et al, 2021）表明，在 K400 上，空间线索比时间信息更重要，以实现更高的准确性。在这里，我们表明无需任何时间建模即可在 K400 上获得可靠的精度。但是请注意，仅空间注意力在 SSv2 上表现不佳。这强调了对后一个数据集进行时间建模的重要性。

表 1

表 1. TimeSformer 中不同时空注意力方案的视频级精度。我们在 Kinetics-400（K400）和 Something-Something-V2（SSv2）的验证集上评估模型。我们观察到，划分的时空注意力在两个数据集上都取得了最好的结果。

此外，我们观察到，划分的时空注意力在 K400 和 SSv2 上都达到了最佳精度。这是有道理的，因为与联合时空注意力相比，分时空注意力具有更大的学习能力（见表 1），因为它包含不同的时间注意力和空间注意力学习参数。

在图 3 中，我们还比较了使用更高空间分辨率（左）和更长（右）视频时联合时空注意力与分散时空注意力的计算成本。我们注意到，在这两种设置下，划分时空的方案都可以优雅地缩放。相比之下，当分辨率或视频长度增加时，联合时空注意力的方案会导致成本显着增加。实际上，一旦空间帧分辨率达到 448 像素，或者一旦帧数增加到 32，联合时空注意力就会导致 GPU 内存溢出，因此不适用于大帧或长视频。因此，尽管参数数量较多，但在更高的空间分辨率或更长的视频上操作时，分开的时空注意力比联合时空注意力更有效。因此，对于所有后续实验，我们使用由划分的时空自注意力块构建的 TimeSformer。

图 3

图 3. 我们比较了联合时空注意力与分时空注意力的视频分类成本（以 TFLOP 为单位）。我们将 TFLOP 的数量绘制为以像素为单位的空间裁剪大小（左）和输入帧数（右）的函数。随着我们增加空间分辨率（左）或视频长度（右），与联合时空注意力方案相比，我们提出的划分时空注意力导致显着的计算节省。

4.2. 与 3D CNN 相比

在本小节中，我们进行了一项实证研究，旨在了解 TimeSformer 与 3D 卷积架构相比的区别属性，后者是近年来视频理解的主要方法。我们将比较重点放在两个 3D CNN 模型上：1）SlowFast（Feichtenhofer et al, 2019b），这是视频分类中最先进的，以及 2）I3D（Carreira & Zisserman, 2017），它已被证明受益于基于图像的预训练，类似于我们自己的模型。我们在表 2 中对这两个网络进行了定量比较，并在下面强调了关键观察结果。

模型的能力。从表 2 中，我们首先观察到虽然 TimeSformer 具有很大的学习能力（参数数量为 121.4M），但它具有较低的推理成本（TFLOPs 中的 0.59）。相比之下，SlowFast 8x8 R50 尽管仅包含 34.6M 参数，但具有更大的推理成本（1.97 TFLOPs）。同样，I3D 8x8 R50 也有更大的推理成本（1.11 TFLOPs），尽管包含更少的参数（28.0M）。这表明 TimeSformer 更适合涉及大规模学习的设置。相比之下，现代 3D CNN 的大量计算成本使其难以在保持效率的同时进一步提高其模型容量。

表 2

表 2. 将 TimeSformer 与 SlowFast 和 I3D 进行比较。我们观察到，尽管 TimeSformer 具有更多参数，但其推理成本更低。此外，与 SlowFast 和 I3D 相比，在视频数据上训练 TimeSformer 的成本要低得多，即使所有模型都在 ImageNet-1K 上进行了预训练。

视频训练时间。ImageNet 预训练的一个显著优点是，它能够在视频数据上非常有效地训练 TimeSformer。相反，即使在图像数据集上进行了预训练，最先进的 3D CNN 的训练成本也要高得多。在表 2 中，我们比较了 TimeSformer 在 Kinetics-400 上的视频训练时间（以 Tesla V100 GPU 小时为单位）与 SlowFast 和 I3D 的视频训练时间。从在 ImageNet-1K 上预训练的 ResNet50 开始，SlowFast 8×8 R50 需要 3840 Tesla V100 GPU 小时才能在 Kinetics-400 上达到 75.6% 的准确率。在类似设置下训练 I3D 需要 1440 Tesla V100 GPU 小时才能达到 73.4% 的准确率。相比之下，同样在 ImageNet-1K 上进行预训练的 TimeSformer 只需要 416 个 Tesla V100 GPU 小时即可达到更高的 75.8% 的准确率（见表 2）。此外，如果我们将 SlowFast 限制在与 TimeSformer 有点相似的计算预算下进行训练（即 448 GPU 小时），其准确率将下降到 70.0%。同样，使用类似的计算预算（即 444 GPU 小时）训练 I3D 会导致较低的准确度，为 71.0%。这突出了一个事实，即一些最新的 3D CNN（Feichtenhofer et al, 2019b; Feichtenhofer, 2020）需要很长的优化计划才能获得良好的性能（即使在使用 ImageNet 预训练时）。相比之下，TimeSformer 为无法访问数百个 GPU 的实验室提供了更高效的替代方案。

预训练的重要性。由于参数众多，从头开始训练我们的模型很困难。因此，在对视频数据训练 TimeSformer 之前，我们使用从 ImageNet 学习的权重对其进行初始化。相比之下，SlowFast 可以从头开始在视频数据上学习，但代价是非常高的训练成本（见表 2）。我们还尝试直接在 Kinetics-400 上训练 TimeSformer，没有任何 ImageNet 预训练。通过使用更长的训练计划和更多的数据扩充，我们发现可以从头开始训练模型，尽管视频级别的准确度要低得多，只有 64.8%。因此，基于这些结果，对于所有后续研究，我们继续使用 ImageNet 进行预训练（Deng et al, 2009）。

在表 3 中，我们研究了 ImageNet-1K 与 ImageNet-21K 在 K400 和 SSv2 上预训练的优势。对于这些实验，我们使用模型的三个变体：（1）TimeSformer，这是我们模型在 8×224×224 视频片段上运行的默认版本，（2）TimeSformer-HR，一种高分辨率变体，可在 16×448×448 视频片段，最后（3）TimeSformer-L，我们模型的远程配置，在 96×224×224 视频片段上运行，帧采样率为 1/4。

表 3

表 3. 比较 ImageNet-1K 和 ImageNet-21K 在 Kinetics-400（K400）和 SomethingSomething-V2（SSv2）上的预训练效果。在 K400 上，与 ImageNet-1K 预训练相比，ImageNet-21K 预训练始终带来更好的性能。在 SSv2 上，ImageNet-1K 和 ImageNet-21K 预训练导致相似的精度。

根据表 3 中的结果，我们观察到 ImageNet-21K 预训练对 K400 有益，与 ImageNet-1K 预训练相比，它始终具有更高的精度。另一方面，在 SSv2 上，我们观察到 ImageNet-1K 和 ImageNet-21K 预训练导致相似的准确性。这是有道理的，因为 SSv2 需要复杂的时空推理，而 K400 更偏向于空间场景信息，因此，它从更大的预训练数据集上学到的特征中获益更多。

视频数据规模的影响。为了了解视频数据规模对性能的影响，我们在 K400 和 SSv2 的不同子集上训练了 TimeSformer：完整数据集的 {25%、50%、75%、100%}。我们在图 4 中显示了这些结果，其中我们还将我们的方法与在相同子集上训练并使用相同预训练的 SlowFast R50（Feichtenhofer et al, 2019b）和 I3D R50（Carreira & Zisserman, 2017）进行了比较。由于我们无法访问在 ImageNet-21K 上预训练的 ResNet，因此我们对所有 3 种架构都使用 ImageNet-1K 预训练。

图 4 的结果表明，在 K400 上，TimeSformer 的所有训练子集都优于其他模型。然而，我们在 SSv2 上观察到不同的趋势，其中 TimeSformer 只有在对 75% 或 100% 的完整数据进行训练时才是最强的模型。这可能是因为与 K400 相比，SSv2 需要学习更复杂的时间模式，因此 TimeSformer 需要更多的例子来有效地学习这些模式。

图 4

图 4. Kinetics-400（K400）和 SomethingSomething-V2（SSv2）的准确度作为训练视频数量的函数。在 K400 上，TimeSformer 在所有情况下都表现最佳。在需要更复杂的时间推理的 SSv2 上，TimeSformer 只有在使用足够的训练视频时才会优于其他模型。所有模型都在 ImageNet-1K 上进行了预训练。

4.3. 改变 Token 的数量

与大多数 3D CNN 相比，我们模型的可扩展性使其能够以更高的空间分辨率和更长的视频运行。我们注意到，这两个方面都会影响输入到 Transformer 的标记（Token）序列的长度。具体来说，增加空间分辨率会导致每帧的块数（N）增加。使用更多帧时，输入标记的数量也会增加。为了研究好处，我们进行了一项实证研究，我们分别增加了这两个轴上的标记数量。

我们在图 5 中报告了调查结果。我们看到增加空间分辨率（达到某个点）会导致性能提升。同样，我们观察到增加输入片段的长度会导致一致的精度增益。由于 GPU 内存限制，我们无法在超过 96 帧的片段上测试我们的模型。尽管如此，我们还是要指出，使用 96 帧的片段与当前的卷积模型有很大的不同，当前的卷积模型通常仅限于处理 8 到 32 帧的输入。

图 5

图 5. Kinetics-400 上的片段级精度作为以像素为单位的空间裁剪大小（左）和输入帧数（右）的函数。

4.4. 位置 Embedding 的重要性

为了研究我们学习的时空位置嵌入（Embedding）的重要性，我们还使用 TimeSformer 的几个变体进行实验，这些变体使用：（1）无位置嵌入，（2）仅空间位置嵌入，以及（3）时空位置嵌入。我们在表 4 中报告了这些结果。根据这些结果，我们观察到使用时空位置嵌入的模型变体在 Kinetics-400 和 Something-Something-V2 上产生了最佳精度。有趣的是，我们还观察到使用纯空间位置嵌入会在 Kinetics-400 上产生可靠的结果，但在 Something-Something-V2 上的结果要差得多。这是有道理的，因为 Kinetics-400 在空间上更偏向，而 Something-Something-V2 需要复杂的时间推理。

表 4

表 4. 位置 Embedding 的消融。使用时空位置 Embedding 的 TimeSformer 版本在 Kinetics-400 和 SSv2 上产生了最高的精度。

4.5. 与最先进技术的比较

Kinetics-400 & Kinetics-600。在表 5 中，我们展示了我们在 K400 验证集上的结果。对于这些实验，我们使用在 ImageNet-21K 上预训练的 TimeSformer。除了准确性指标外，我们还包括以 TFLOPs 给出的推理成本。我们注意到，虽然大多数以前的方法在推理过程中使用 10 个时间片段和 3 个空间裁剪（总共 30 个时空视图），但 TimeSformer 仅使用 3 个视图（3 个空间裁剪）就实现了可靠的准确性，从而降低了推理成本。我们的远程变体 TimeSformer-L 达到了 80.7% 的 top-1 准确率。此外，我们的默认 TimeSformer 在最近最先进的模型中具有最低的推理成本。然而，它仍然提供了 78.0% 的可靠准确率，优于许多更昂贵的模型。

表 5

表 5. Kinetics-400 的视频级精度。

我们还测量了 Kinetics-400（使用 8 个 Tesla V100 GPU）的 20K 验证视频的实际推理运行时间。SlowFast 完成推理需要 14.88 小时，而 TimeSformer、TimeSformer-HR 和 TimeSformer-L 分别需要 36 分钟、1.06 小时和 2.6 小时。因此，尽管 SlowFast 和 TimeSformer-L 在 TFLOPs 方面的成本相当，但实际上我们所有版本的 TimeSformer 的运行时间要低得多。

在表 6 中，我们还展示了我们在 Kinetics-600 上的结果。就像在 Kinetics-400 上一样，我们观察到 TimeSformer 在此基准测试中表现良好，优于所有先前的方法。

表 6

表 6. Kinetics-600 的视频级精度。

最后，在图 6 中，我们研究了在推理过程中使用多个时间片段的效果（每个片段都具有一个空间裁剪）。我们使用 $K\in\left\{1,\ 3,\ 5,\ 10\right\}$ 时间片段绘制精度以进行测试。我们将我们的模型与 X3D（Feichtenhofer, 2020）和 SlowFast（Feichtenhofer et al, 2019b）进行比较。X3D 和 SlowFast 需要多个（ $\geq 5$ ）个片段才能达到最高准确度。相反，我们的远程变体 TimeSformer-L 不需要多个片段来实现其最佳性能，因为它能够用单个片段跨越大约 12 秒的 Kinetics 视频。

图 6

图 6. Kinetics-400 的视频级准确度与推理期间使用的时间片段的数量。TimeSformer-L 使用少量片段即可实现出色的准确性，从而以较低的推理成本实现强大的性能。

Something-Something-V2 & Diving-48。在表 7 中，我们还在 SSv2 和 Diving-48 上验证了我们的模型。由于 ImageNet-21K 预训练不会提高 SSv2 的准确性（见表 3），在这种情况下，我们使用在 ImageNet-1K 上预训练的 TimeSformer。这也允许我们使用在 ImageNet-1K 上预训练的 ResNet 对本次比较中的所有其他模型应用相同的预训练。我们的结果表明，TimeSformer 的准确性低于该数据集上的最佳模型。然而，考虑到我们的模型使用了完全不同的设计，我们认为这些结果表明 TimesSformer 即使对于具有挑战性的时间密集型数据集（例如 SSv2）也是一种很有前途的方法。在表 7 中，我们还在另一个 “时间密集型” 数据集 Diving-48 上展示了我们的方法。由于最近发现早期版本的 Diving-48 标签存在问题，在这里，我们仅将我们的方法与复制的 SlowFast 16×8 R101 模型进行比较。我们的结果表明，TimeSformer 的性能大大优于 SlowFast。

表 7

表 7. Something-Something-V2 和 Diving-48 的视频级精度。∗∗ 由于先前发布的结果中使用的 Diving-48 标签存在问题，我们仅将我们的方法与复制的 SlowFast 16×8 R101 模型进行比较。所有模型都保留在 ImageNet-1K 上。

4.6. 长视频建模

最后，我们使用 HowTo100M（Miech et al, 2019）评估 TimeSformer 在长期视频建模任务上的表现。HowTo100M 是一个教学视频数据集，包含大约 100 万个教学网络视频，显示人类执行超过 23000 种不同的任务，例如烹饪、修理、制作艺术等。这些视频的平均持续时间约为 7 分钟，比标准动作识别基准中视频的持续时间。每个 HowTo100M 视频都有一个标签，指示视频中演示的任务（23K 类中的一个），可用于监督训练。因此，它是评估模型识别在很长的时间范围内展示的活动的能力的一个很好的基准。

对于此评估，我们仅考虑具有至少 100 个视频示例的类别。这给出了 HowTo100M 的一个子集，对应于跨越 1059 个任务类别的 120K 个视频。我们将这个集合随机分成 85K 训练视频和 35K 测试视频。

我们在表 8 中展示了我们的结果。作为我们的基线，我们使用 SlowFast R101 的四种变体，所有变体都对以 1/32 的帧速率采样但具有不同帧数的视频片段进行操作：8、32、64 和 96。我们对 TimeSformer 使用相同的四种配置，从在 ImageNet-21K 上预训练的 ViT 开始。此比较中的所有模型都在 Kinetics-400 上预训练，然后在 HowTo100M 上进行微调。

表 8

表 8. HowTo100M 上的长期任务分类。给定一段时长几分钟的视频，目标是预测视频中展示的长期任务（例如，做早餐、打扫房间等）。我们在此任务上评估了 SlowFast 和 TimeSformer 的一些变体。“单个片段覆盖率” 表示单个片段跨越的秒数。“# Test Clip” 是在推理过程中覆盖整个视频所需的平均片段数。此比较中的所有模型都在 Kinetics-400 上进行了预训练。

在推理过程中，对于每种方法，我们根据需要采样尽可能多的非重叠时间片段以覆盖视频的整个时间范围，例如，如果单个片段跨越 8.5 秒，我们将采样 48 个测试clip以覆盖 410 秒的视频。视频级分类是通过对片段预测进行平均来完成的。

从表 8 中的结果我们首先注意到，对于相同的单个片段覆盖率，TimeSformer 的性能优于相应的 SlowFast 8-11%。我们还观察到距离较长的 TimeSformers 表现更好，即我们的距离最长的变体实现了最佳的视频级分类精度。这些结果表明我们的模型非常适合需要长期视频建模的任务。

我们还尝试直接从在 ImageNet-1K 和 ImageNet21K 上预训练的 ViT 微调 TimeSformer（跳过 Kinetics-400 训练）。我们报告说，当仅在 ImageNet-1K 上进行预训练时，我们的模型对于 8、32、64、96 帧输入分别达到了 52.8、58.4、59.2、59.4 的 top-1 精度。在考虑 ImagNet21K 预训练时，TimeSformer 分别为 8、32、64、96 帧输入产生 56.0、59.2、60.2、62.1 的 top-1 精度。这些结果表明，无论我们使用何种预训练数据集，我们的模型都可以有效地利用长时间依赖性。

4.7. 额外的消融

更小和更大的 Transformers。除了 “Base” ViT 模型（Dosovitskiy et al, 2020），我们还试验了 “Large” ViT。我们报告说，这在 Kinetics-400 和 Something-Something-V2 上产生的结果都差了 1%。鉴于我们的 “Base” 模型已经有 121M 个参数，我们怀疑当前的数据集不够大，不足以证明进一步增加模型容量是合理的。我们还尝试了 “Small” ViT 变体，它产生的准确度比我们默认的 “Base” ViT 模型差大约 5%。

更大的 Patch 尺寸。我们还尝试了不同的patch大小，即 $P = 32$ 。我们报告说，我们模型的这个变体产生的结果比我们使用 $P = 16$ 的默认变体差大约 3%。我们推测 $P = 32$ 的性能下降是由于空间粒度的减小。我们没有训练任何 $P$ 值低于 16 的模型，因为这些模型的计算成本要高得多。

时空自注意的顺序。我们提出的 “Divided Space-Time Attention” 方案依次应用时间注意力和空间注意力。在这里，我们研究了颠倒时空注意力的顺序（即首先应用空间注意力，然后是时间注意力）是否对我们的结果有影响。我们报告说，首先应用空间注意力，然后是时间注意力会导致 Kinetics-400 和 Something-Something-V2 的准确度下降 0.5%。我们还尝试了平行时空自注意力。我们报告说，与我们采用的 “Divided Space-Time Attention” 方案相比，它的准确度降低了 0.4%。

4.8. 定性结果

可视化习得的时空注意力。在图 7 中，我们展示了通过在 Something-Something-V2 视频上应用 TimeSformer 获得的时空注意力可视化。为了可视化学习到的注意力，我们使用（Abnar & Zuidema, 2020）中提出的 Attention Rollout 方案。我们的结果表明，TimeSformer 学会了关注视频中的相关区域，以执行复杂的时空推理。例如，我们可以观察到该模型在可见时侧重于手的配置，在不可见时侧重于仅对象的配置。

图 7

图 7. Something-Something-V2 上从输出标记到输入空间的时空注意力可视化。我们的模型学习专注于视频中的相关部分，以执行时空推理。

可视化学习到的特征嵌入。在图 8 中，我们还可视化了 TimeSformer 在 Something-Something-V2 上学到的特征。可视化是使用 t-SNE（van der Maaten & Hinton, 2008）完成的，其中每个点代表一个视频，不同的颜色表示不同的动作类别。基于此图，我们观察到与仅空间注意力或 ViT 的 TimeSformer 相比，具有分散时空注意力的 TimeSformer 在语义上学习了更多可分离的特征（Dosovitskiy et al, 2020）。

图 8

图 8. 使用 t-SNE（van der Maaten & Hinton, 2008）在 Something-Something-V2 上进行特征可视化。每个视频都可视化为一个点。属于同一动作类别的视频具有相同的颜色。与仅空间注意力或 ViT 的 TimeSformer 相比，具有分散时空注意力的 TimeSformer 在语义上学习了更多可分离的特征（Dosovitskiy et al, 2020）。

5. 结论

在这项工作中，我们介绍了 TimeSformer，与基于卷积的视频网络的既定范例相比，这是一种根本不同的视频建模方法。我们证明了可以设计一个有效的、可扩展的视频架构，专门建立在时空自注意力的基础上。我们的方法（1）在概念上很简单，（2）在主要动作识别基准上取得了最先进的结果，（3）训练和推理成本低，并且（4）可以应用于一分钟以上的片段，从而实现长期视频建模。未来，我们计划将我们的方法扩展到其他视频分析任务，如动作定位、视频字幕和问答。

附录

A. 实施细节

我们的 TimeSformer 实现是使用 PySlowFast（Fan et al, 2020）和 pytorch-image-models（Wightman, 2019）包构建的。下面，我们描述了关于我们模型的训练和推理过程的具体实现细节。

训练。我们以 0.005 的初始学习率训练我们的模型 15 个epoch，在第 11 和 14 个epoch除以 10。在训练期间，我们首先将视频的较短边调整为 $[256, 320]$ 中的随机值。然后我们从调整大小的视频中随机抽取一个 224×224 的裁剪。对于我们的高分辨率模型 TimeSformer-HR，我们将视频的较短边调整为 $[448, 512]$ 中的随机值，然后随机采样 448×448 裁剪。我们从帧速率为 1/32 的全长视频中随机采样剪辑。批量大小设置为 16。我们在 32 个 GPU 上使用同步 SGD 训练所有模型。momentum 设置为 0.9，而权重衰减设置为 0.0001。

除非另有说明，否则在我们的实验中，我们使用 “Base” ViT 模型（Dosovitskiy et al, 2020）。每个块中的时间和空间注意层都使用相同的权重进行初始化，这些权重是从 ViT 中相应的注意层获得的。

推理。正如在初稿中讨论的那样，在推理过程中，我们在视频中间采样了一个时间片段。我们将视频的较短空间边缩放到 224 像素（对于 TimeSformer-HR 为 448 像素），并进行 3 次裁剪，尺寸为 224×224（对于 TimeSformer-HR 为 448×448），以覆盖剪辑中更大的空间范围。最终的预测是通过对这 3 个预测的 softmax 分数进行平均得到的。

我们比较中的其他模型。为了训练 I3D（Carreira & Zisserman, 2017）和 SlowFast（Feichtenhofer et al, 2019b），我们使用原始论文中使用的训练协议。对于 I3D，我们使用 2D ImageNet CNN 对其进行初始化，然后对其进行 118 轮训练，基础学习率为 0.01，在第 44 轮和第 88 轮除以 10。我们遵循 Goyal 等人（2017a）的线性缩放配方，在 32 个 GPU 上使用同步 SGD。我们将 momentum 设置为 0.9，将权重衰减设置为 0.0001。批量大小设置为 64。对于 SlowFast 模型，当从 ImageNet 权重初始化时，我们使用相同的训练协议。从头开始训练 SlowFast 时，我们使用作者描述的训练协议（Feichtenhofer et al, 2019b）。更具体地说，在这种情况下，使用余弦学习率计划对 196 个 epoch 进行训练，初始学习率设置为 0.1。我们对前 34 个 epoch 使用线性预热，学习率为 0.01。在最终分类层之前使用 0.5 的 dropout。momentum 设置为 0.9，权重衰减为 0.0001，批量大小设置为 64。和以前一样，我们采用线性缩放方法（Goyal et al, 2017a）。

数据集。Kinetics-400（Carreira & Zisserman, 2017）包含 24 万个训练视频和 2 万个验证视频，涵盖 400 个人类行为类别。Kinetics-600（Carreira et al, 2018）拥有 392K 个训练视频和 30K 个验证视频，涵盖 600 个动作类别。SomethingSomething-V2（Goyal et al, 2017b）包含 170,000 个训练视频和 25,000 个验证视频，涵盖 174 个动作类别。最后，Diving-48（Li et al, 2018）拥有 16K 训练视频和 3K 测试视频，涵盖 48 个细粒度潜水类别。对于所有这些数据集，我们使用标准分类准确度作为我们的主要性能指标。

参考文献

Abnar, S. and Zuidema, W. Quantifying attention flow in transformers, 2020.
Ba, L. J., Kiros, J. R., and Hinton, G. E. Layer normalization. CoRR, 2016.
Bello, I., Zoph, B., Le, Q., Vaswani, A., and Shlens, J. Attention augmented convolutional networks. In 2019 IEEE/CVF International Conference on Computer Vision, ICCV, 2019.
Bertasius, G. and Torresani, L. Classifying, segmenting, and tracking object instances in video with mask propagation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2020.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., and Amodei, D. Language models are few-shot learners. 2020.
Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., and Zagoruyko, S. End-to-end object detection with transformers. In European Conference Computer Vision (ECCV), 2020.
Carreira, J. and Zisserman, A. Quo vadis, action recognition? A new model and the kinetics dataset. In 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, USA, July 21-26, 2017, 2017.
Carreira, J., Noland, E., Banki-Horvath, A., Hillier, C., and Zisserman, A. A short note about kinetics-600. CoRR, 2018.
Chen, M. X., Firat, O., Bapna, A., Johnson, M., Macherey, W., Foster, G., Jones, L., Schuster, M., Shazeer, N., Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Chen, Z., Wu, Y., and Hughes, M. The best of both worlds: Combining recent advances in neural machine translation. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2018a.
Chen, Y., Kalantidis, Y., Li, J., Yan, S., and Feng, J. Aˆ2nets: Double attention networks. In Advances in Neural Information Processing Systems 31, 2018b.
Chen, Y., Fan, H., Xu, B., Yan, Z., Kalantidis, Y., Rohrbach, M., Yan, S., and Feng, J. Drop an octave: Reducing spatial redundancy in convolutional neural networks with octave convolution. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), October 2019.
Child, R., Gray, S., Radford, A., and Sutskever, I. Generating long sequences with sparse transformers. CoRR, 2019.
Cordonnier, J., Loukas, A., and Jaggi, M. On the relationship between self-attention and convolutional layers. In 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020, 2020.
Dai, Z., Yang, Z., Yang, Y., Carbonell, J., Le, Q., and Salakhutdinov, R. Transformer-XL: Attentive language models beyond a fixed-length context. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019.
Deng, J., Dong, W., Socher, R., Li, L., Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 248–255, 2009. doi: 10.1109/CVPR. 2009.5206848.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019.
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., and Houlsby, N. An image is worth 16x16 words: Transformers for image recognition at scale. CoRR, 2020.
Fan, H., Li, Y., Xiong, B., Lo, W.-Y., and Feichtenhofer, C. Pyslowfast. https://github.com/ facebookresearch/slowfast, 2020.
Fan, Q., Chen, C.-F. R., Kuehne, H., Pistoia, M., and Cox, D. More is less: Learning efficient video representations by big-little network and depthwise temporal aggregation. In Advances in Neural Information Processing Systems, volume 32, 2019.
Feichtenhofer, C. X3d: Expanding architectures for efficient video recognition. CVPR, pp. 200–210, 2020.
Feichtenhofer, C., Fan, H., Malik, J., and He, K. Slowfast networks for video recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019a.
Feichtenhofer, C., Fan, H., Malik, J., and He, K. Slowfast networks for video recognition. In 2019 IEEE/CVF International Conference on Computer Vision, ICCV, 2019b.
Gavrilyuk, K., Sanford, R., Javan, M., and Snoek, C. G. M. Actor-transformers for group activity recognition. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2020.
Girdhar, R., Carreira, J., Doersch, C., and Zisserman, A. Video action transformer network. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR, 2019.
Goyal, P., Dollár, P., Girshick, R., Noordhuis, P., Wesolowski, L., Kyrola, A., Tulloch, A., Jia, Y., and He, K. Accurate, large minibatch sgd: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677, 2017a.
Goyal, R., Kahou, S. E., Michalski, V., Materzynska, J., Westphal, S., Kim, H., Haenel, V., Fründ, I., Yianilos, P., Mueller-Freitag, M., Hoppe, F., Thurau, C., Bax, I., and Memisevic, R. The “something something” video database for learning and evaluating visual common sense. CoRR, 2017b.
Ho, J., Kalchbrenner, N., Weissenborn, D., and Salimans, T. Axial attention in multidimensional transformers. CoRR, 2019.
Hu, H., Gu, J., Zhang, Z., Dai, J., and Wei, Y. Relation networks for object detection. In 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR, 2018.
Huang, Z., Wang, X., Huang, L., Huang, C., Wei, Y., and Liu, W. Ccnet: Criss-cross attention for semantic segmentation. 2019.
Jiang, B., Wang, M., Gan, W., Wu, W., and Yan, J. Stm: Spatiotemporal and motion encoding for action recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), October 2019.
Kwon, H., Kim, M., Kwak, S., and Cho, M. Motionsqueeze: Neural motion feature learning for video understanding. In ECCV, 2020.
Le, H., Sahoo, D., Chen, N., and Hoi, S. Multimodal transformer networks for end-to-end video-grounded dialogue systems. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019.
Li, L., Chen, Y.-C., Cheng, Y., Gan, Z., Yu, L., and Liu, J. Hero: Hierarchical encoder for video+ language omni-representation pre-training. arXiv preprint arXiv:2005.00200, 2020a.
Li, Y., Li, Y., and Vasconcelos, N. Resound: Towards action recognition without representation bias. In The European Conference on Computer Vision (ECCV), September 2018.
Li, Y., Ji, B., Shi, X., Zhang, J., Kang, B., and Wang, L. Tea: Temporal excitation and aggregation for action recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020b.
Lin, J., Gan, C., and Han, S. Tsm: Temporal shift module for efficient video understanding. In Proceedings of the IEEE International Conference on Computer Vision, 2019.
Miech, A., Zhukov, D., Alayrac, J.-B., Tapaswi, M., Laptev, I., and Sivic, J. HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips. In ICCV, 2019.
Ott, M., Edunov, S., Grangier, D., and Auli, M. Scaling neural machine translation. In Proceedings of the Third Conference on Machine Translation: Research Papers, 2018.
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., and Tran, D. Image transformer. In Dy, J. G. and Krause, A. (eds.), Proceedings of the 35th International Conference on Machine Learning, ICML, 2018.
Qiu, Z., Yao, T., Ngo, C.-W., Tian, X., and Mei, T. Learning spatio-temporal representation with local and global diffusion. In CVPR, 2019.
Radford, A., Narasimhan, K., Salimans, T., and Sutskever, I. Improving language understanding by generative pretraining. 2018.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever, I. Language models are unsupervised multitask learners. 2019.
Ramachandran, P., Parmar, N., Vaswani, A., Bello, I., Levskaya, A., and Shlens, J. Stand-alone self-attention in vision models. In Advances in Neural Information Processing Systems, pp. 68–80, 2019.
Sevilla-Lara, L., Zha, S., Yan, Z., Goswami, V., Feiszli, M., and Torresani, L. Only time can tell: Discovering temporal data for temporal modeling. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 535–544, January 2021.
Simonyan, K. and Zisserman, A. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
Stroud, J., Ross, D., Sun, C., Deng, J., and Sukthankar, R. D3d: Distilled 3d networks for video action recognition. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), March 2020.
Sun, C., Myers, A., Vondrick, C., Murphy, K., and Schmid, C. Videobert: A joint model for video and language representation learning, 2019.
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., and Rabinovich, A. Going deeper with convolutions. In Computer Vision and Pattern Recognition (CVPR), 2015.
Teed, Z. and Deng, J. RAFT: recurrent all-pairs field transforms for optical flow. In Computer Vision - ECCV 2020 - 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part II, 2020.
Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y., and Paluri, M. A closer look at spatiotemporal convolutions for action recognition. In 2018 IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018, 2018.
Tran, D., Wang, H., Feiszli, M., and Torresani, L. Video classification with channel-separated convolutional networks. ICCV, pp. 5551–5560, 2019.
van der Maaten, L. and Hinton, G. Visualizing data using t-SNE. Journal of Machine Learning Research, 9: 2579–2605, 2008. URL http://www.jmlr.org/ papers/v9/vandermaaten08a.html. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L. u., and Polosukhin, I. Attention is all you need. In Advances in Neural Information Processing Systems, 2017a.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L. u., and Polosukhin, I. Attention is all you need. In Advances in Neural Information Processing Systems 30. 2017b.
Wang, H., Tran, D., Torresani, L., and Feiszli, M. Video modeling with correlation networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020a.
Wang, H., Zhu, Y., Green, B., Adam, H., Yuille, A. L., and Chen, L. Axial-deeplab: Stand-alone axial-attention for panoptic segmentation. In Computer Vision - ECCV 2020 - 16th European Conference, 2020b.
Wang, X., Girshick, R., Gupta, A., and He, K. Non-local neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018a.
Wang, X., Girshick, R. B., Gupta, A., and He, K. Non-local neural networks. In 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, June 18-22, 2018, 2018b.
Wang, X., Xiong, X., Neumann, M., Piergiovanni, A. J., Ryoo, M. S., Angelova, A., Kitani, K. M., and Hua, W. Attentionnas: Spatiotemporal attention cell search for video classification. In Computer Vision - ECCV 2020 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part VIII, 2020c.
Weissenborn, D., Täckström, O., and Uszkoreit, J. Scaling autoregressive video models. In 8th International Conference on Learning Representations, ICLR, 2020.
Wightman, R. Pytorch image models. https://github.com/rwightman/pytorch-image-models, 2019. Xie, S., Sun, C., Huang, J., Tu, Z., and Murphy, K. Rethinking spatiotemporal feature learning: Speedaccuracy trade-offs in video classification. In Computer Vision - ECCV 2018 - 15th European Conference, Munich, Germany, September 8-14, 2018, Proceedings, Part XV, pp. 318–335, 2018. doi: 10.1007/ 978-3-030-01267-0_19. URL https://doi.org/ 10.1007/978-3-030-01267-0_19.
Yang, Z., Garcia, N., Chu, C., Otani, M., Nakashima, Y., and Takemura, H. Bert representations for video question answering. In The IEEE Winter Conference on Applications of Computer Vision, 2020.
Zhao, H., Jia, J., and Koltun, V. Exploring self-attention for image recognition. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2020.
Zhou, L., Zhou, Y., Corso, J. J., Socher, R., and Xiong, C. End-to-end dense video captioning with masked transformer. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018.