【弱监督动作识别】2022-CVPR-MS-TCT：用于动作检测的多尺度时间卷积 Transformer-CSDN博客

本文链接：https://blog.csdn.net/weixin_42475026/article/details/139546877

2022-CVPR-MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection

MS-TCT：用于动作检测的多尺度时间卷积Transformer

MS-TCT：用于动作检测的多尺度时间卷积Transformer

论文地址

摘要

动作检测是一项重要且具有挑战性的任务，尤其是在未经剪辑的视频的密集标记数据集中。此类数据由复杂的时间关系组成，包括复合或同时发生的动作。为了在这些复杂的设置中检测动作，有效捕获短期和长期时间信息至关重要。为此，我们提出了一种用于动作检测的新型“ConvTransformer”网络：MS-TCT。该网络由三个主要组件组成：（1）时间编码器模块，用于探索多个时间分辨率下的全局和局部时间关系；（2）时间尺度混合器模块，用于有效融合多尺度特征，创建统一的特征表示；（3）分类模块，用于学习每个动作实例随时间的中心相对位置，并预测帧级分类分数。我们在 Charades、TSU 和 MultiTHUMOS 等多个具有挑战性的数据集上的实验结果验证了所提方法的有效性，该方法在这三个数据集上均优于最先进的方法。

1. 简介

动作检测是计算机视觉中一个众所周知的问题，其目的是在未剪辑的视频中找出动作之间的精确时间边界。它与现实世界的设置非常吻合，因为视频的每一分钟都可能充满需要检测和标记的多个动作。有公共数据集 [10,41,51] 提供了密集的注释来解决这个问题，其动作分布与现实世界相似。然而，这样的数据可能具有挑战性，因为多个动作在不同的时间跨度内同时发生，并且背景信息有限。因此，了解动作之间的短期和长期时间依赖关系对于做出正确的预测至关重要。例如，“拿食物”的动作（见图 1）可以从 “打开冰箱” 和 “做三明治” 中获得上下文信息，它们分别对应于短期和长期动作依赖关系。此外，“把东西放在桌子上”和“做三明治”的发生提供了上下文信息来检测复合动作 “烹饪”。这个例子表明需要一种有效的时间建模技术来检测密集标记视频中的动作。

图 1

图 1. 未修剪视频中的复杂时间关系：在这里，我们展示了密集标记视频中动作的典型分布，其中包括动作之间的长期和短期依赖关系。

为了对未修剪视频中的时间关系进行建模，先前的多种方法 [8,9,11,12,30,38] 使用 1D 时间卷积 [30]。然而，由于内核大小的限制，基于卷积的方法只能直接访问局部信息，而不能学习视频中时间上相距较远的片段之间的直接关系（这里，我们将一组连续的帧视为一个片段）。因此，这种方法无法对片段之间的长距离交互进行建模，而这对于动作检测可能很重要。随着 Transformers [16,34,44,56] 在自然语言处理和最近在计算机视觉领域的成功，最近的方法 [42,43] 利用多头自注意力（MHSA）来对视频中的长期关系进行建模以进行动作检测。这种注意力机制可以在视频的每个时间片段（即时间标记）之间建立直接的一对一全局关系，以检测高度相关和复合的动作。然而，现有的方法依赖于在输入帧本身上对这种长期关系进行建模。在这里，时间标记仅覆盖几帧，这通常相对于动作实例的持续时间来说太短了。此外，在这种情况下，Transformer 需要明确学习相邻标记之间的强关系，这种关系是由于时间一致性而产生的，而时间卷积（即局部归纳偏差）则很自然地实现了这一点。因此，纯 Transformer 架构可能不足以为动作检测建模复杂的时间依赖关系。

为此，我们提出了多尺度时间转换 Transformer（MS-TCT），该模型受益于卷积和自注意力。我们在基于 token 的架构中使用卷积来促进 token 的多个时间尺度，并混合相邻 token，轻松实现时间一致性。事实上，MS-TCT 是建立在使用 3D 卷积主干 [4] 编码的时间段之上的。每个时间段都被视为 MS-TCT 的单个输入 token，以不同的时间尺度在多个阶段进行处理。这些尺度由时间段的大小决定，时间段在每个阶段的输入中被视为单个 token。拥有不同的尺度使 MS-TCT 能够学习早期阶段原子动作（例如 “打开冰箱”）之间的细粒度关系，以及后期阶段复合动作（例如 “烹饪”）之间的粗粒度关系。更具体地说，每个阶段都包含一个用于合并 token 的时间卷积层，后面跟着一组多头自注意力层和时间卷积层，它们分别对全局时间关系进行建模并在 token 之间注入局部信息。由于卷积引入了归纳偏差 [15]，因此与纯 Transformer [16] 不同，在 MS-TCT 中使用时间卷积层可以注入与 token 相关的位置信息 [21, 23]，即使没有任何位置嵌入。随后对不同尺度的时间关系进行建模，使用混合器模块融合每个阶段的特征以获得统一的特征表示。最后，为了预测密集分布的动作，除了通常的多标签分类分支外，我们还在 MS-TCT 中引入了热图分支。该热图鼓励网络预测每个动作类实例的相对时间位置。图 2 显示了相对时间位置，它基于由实例中心及其持续时间参数化的高斯滤波器计算得出。它表示在任意给定时间相对于动作实例中心的相对时间位置。借助此新分支，MS-TCT 可以在标记表示中嵌入类别相对时间位置，从而支持在复杂视频中进行判别性标记分类。

图 2

图 2. 相对时间位置热图（\mathbf{G}^\ast）：我们展示一个包含两个重叠动作实例的视频片段。高斯分布表示时间热图的强度，这些热图以每个动作的中点为中心。

总而言之，这项工作的主要贡献是：（1）提出一种有效且高效的 ConvTransformer，用于对未修剪视频中的复杂时间关系进行建模；（2）引入一个新分支来学习相对于实例中心的位置，从而促进密集标记视频中的动作检测；（3）在三个具有挑战性的密集标记动作数据集上改进最新技术。

2. 相关工作

近年来，动作检测引起了广泛关注 [7,12,14,20,31,50,53]。在这项工作中，我们专注于密集标记视频中的动作检测 [10,41,51]。早期对复杂时间关系建模的尝试倾向于使用基于锚点的方法 [5,49]。然而，密集动作分布需要大量这样的锚点。Superevent [37] 利用一组高斯滤波器来学习视频片段，然后用软注意机制将其总结为全局表示。然而，由于这些高斯与输入视频无关，它无法有效处理复合动作频率较小的视频。类似地，TGM [38] 也是一个基于高斯分布的时间滤波器，它能够用有限数量的参数学习更长的时间结构。PDAN [9] 是一个时间卷积网络，其时间核可自适应输入数据。尽管 TGM 和 PDAN 在建模复杂时间关系方面取得了最佳表现，但这些关系局限于局部区域，因此阻碍了它们学习长距离关系。粗细网络 [26] 以 SlowFast [18] 方式利用两个 X3D [17] 网络。该网络可以联合建模时空关系。但是，它受到 X3D 主干中输入帧数量的限制，并且需要较大的步幅才能有效处理长视频。这阻止了粗细网络考虑长视频中的细粒度细节来检测动作边界。一项并行工作 [25] 研究了仅使用分类标签的检测预训练，以改进下游动作检测。最近，已经提出了一些尝试来明确建模长期关系：MTCN [28] 受益于动作和标签的时间上下文，而 TQN [52] 将类别分解为预定义的属性查询以预测细粒度动作。然而，将这两种方法扩展到未修剪视频中的动作检测并非易事。

最近的 Transformer 模型在图像和视频领域都取得了成功 [1,2,6,16,34,35,39,45,46,48,54,56]。尽管诸如 TimeSformer [44] 之类的 Vision Transformer 可以考虑帧级输入标记来建模时间关系，但它仅限于短视频片段，不足以对较长的真实视频中的细粒度细节进行建模。作为一种折衷，最近的动作检测方法在由 3D 卷积主干编码的视觉片段之上使用多头自注意层 [4]。RTD-Net [42] 是 DETR [56] 的扩展，它使用 Transformer 解码器来建模提案和标记之间的关系。然而，这个网络只为稀疏注释的视频而设计 [3,24]，每个视频只存在一个动作。在密集动作分布中，RTD-Net 中检测边界的模块无法分离前景和背景区域。MLAD [43] 学习特定于类的特征并使用Transformer编码器来建模每个时间步骤中的类关系和每个类的时间关系。但是，MLAD 难以处理具有复杂标签的数据集 [41]，因为很难在此类视频中提取特定于类的特征。与为动作检测引入的这些 Transformer 相比，我们提出了一个 ConvTransformer：MS-TCT，它继承了 Transformer 编码器架构，同时还从时间卷积中获益。我们的方法可以在不同的时间尺度上全局和局部地建模时间标记。虽然存在用于图像分类的其他 ConvTransformers [15,21,27,47]，但我们的网络是为密集标记动作检测而设计和扎根的。

3. 多尺度时间 ConvTransformer

首先，我们定义在密集标记设置中动作检测的问题陈述。正式地，对于长度为 $T$ 的视频序列，每个时间步长 $t$ 包含一个真实动作标签 $y_{t,c}\in\left\{0,\ 1\right\}$ ，其中 $c\in\left\{1,\ ...,\ C\right\}$ 表示一个动作类。对于每个时间步长，动作检测模型需要预测类概率 ${\widetilde{y}}_{t,c}\in[0,\ 1]$ 。在这里，我们描述我们提出的动作检测网络：MS-TCT。如图 3 所示，它由四个主要组件组成：(1) 一个对初步视频表示进行编码的视觉编码器，(2) 一个在不同时间尺度（即分辨率）上结构化建模时间关系的时间编码器，(3) 一个时间尺度混合器，称为 TS 混合器，它结合了多尺度时间表示，以及 (4) 一个预测类概率的分类模块。在以下部分中，我们将介绍 MS-TCT 的每个组件的详细信息。

图 3

图 3. 用于动作检测的多尺度时间卷积Transformer (MS-TCT) 由四个主要组件组成：(1) 视觉编码器、(2) 时间编码器、(3) 时间尺度混合器 (TS 混合器) 和 (4) 分类模块。此处，TC 表示内核大小为 k 的 1D 卷积层。

3.1. 视觉编码器

我们的动作检测网络 MS-TCT 的输入是一段未剪辑的视频，该视频可能持续很长时间 [10]（例如数分钟）。但是，在空间和时间维度上处理长视频可能具有挑战性，主要是由于计算负担。作为一种折衷，与之前的动作检测模型 [9,38,43] 类似，我们将 3D CNN 提取的视频片段特征视为 MS-TCT 的输入，MS-TCT 将空间信息潜在地嵌入为通道。具体来说，我们使用 I3D 主干 [4] 来编码视频。每个视频被分成 $T$ 个不重叠的片段（在训练期间），每个片段由 8 帧组成。这样的 RGB 帧作为输入段输入到 I3D 网络。每个片段级特征（I3D 的输出）都可以看作是时间步长的 Transformer 标记（即时间标记）。我们沿时间轴堆叠标记以形成 $T\times D_0$ 视频标记表示，以输入到时间编码器。

3.2. 时间编码器

如前文第 1 节所强调的，高效的时间建模对于理解视频中的长期时间关系至关重要，尤其是对于复杂的动作组合。给定一组视频标记，有两种主要方式来建模时间信息：使用 (1) 1D 时间卷积层 [30]，该层关注相邻标记但忽略视频中的直接长期时间依赖性，或 (2) Transformer [44] 层，全局编码所有标记的一对一交互，同时忽略局部语义，这已被证明对建模高度相关的视觉信号有益 [19,22]。我们的时间编码器通过交替探索局部和全局上下文信息，从两方面受益。

如图 3 所示，时间编码器遵循具有 $N$ 个阶段的分层结构：早期阶段学习具有更多时间标记的细粒度动作表示，而后期阶段学习具有较少标记的粗粒度表示。每个阶段对应一个语义级别（即时间分辨率），由一个时间合并块和 $\times B$ 个全局-局部关系块组成（见图 4）：

图 4

图 4. 我们的时间编码器的单个阶段由 (1) 时间合并块和 (2) \times B 全局-局部关系块组成。每个全局-局部关系块包含一个全局和一个局部关系块。这里，Linear 和 TC 分别表示内核大小为 1 和 k 的 1D 卷积层。

时间合并块是引入网络层次结构的关键组件，它可以减少 token 的数量（即时间分辨率），同时增加特征维度。此步骤可以看作是相邻 token 之间的加权池化操作。在实践中，我们使用单个时间卷积层（通常内核大小为 $k$ ，步长为 2）将 token 数量减半，并将通道大小扩展 $\times\gamma$ 。在第一阶段，我们保持步长为 1，以保持与 I3D 输出相同的 token 数量，并将特征大小从 $D_0$ 投影到 $D$ （见图 3）。这只是一种设计选择。

全局-局部关系块进一步分解为全局关系块和局部关系块（见图 4）。在全局关系块中，我们使用标准多头自注意力层 [44] 来建模长期动作依赖关系，即全局上下文关系。在局部关系块中，我们使用时间卷积层（内核大小为 $k$ ）通过注入来自相邻标记的上下文信息来增强标记表示，即局部归纳偏差。这在对与动作实例相对应的短期时间信息进行建模的同时增强了每个标记的时间一致性。

接下来，我们制定全局-局部关系块内的计算流程。为简便起见，在这里，我们删除阶段索引 $n$ 。对于块 $j\in\left\{1,\ ...,\ B\right\}$ ，我们将输入标记表示为 $X_j\in\mathbb{R}^{T^\prime\times D^\prime}$ 。首先，标记经过全局关系块中的多头注意层，该层由 $H$ 个注意力头组成。对于每个头 $i\in\left\{1,\ ...,\ H\right\}$ ，输入 $X_j$ 被投影到 $Q_{ij}=W_{ij}^QX_j,\ K_{ij}=W_{ij}^KX_j$ 和 $V_{ij}=W_{ij}^VX_j$ ，其中 $W_{ij}^Q,\ W_{ij}^K,\ W_{ij}^V\in\mathbb{R}^{D_h\times D^\prime}$ 表示线性层的权重， $D_h=\frac{D^\prime}{H}$ 表示每个头的特征维度。因此，头 $i$ 的自注意力计算为，

公式 1

然后，将不同注意力头的输出与附加线性层混合，如下：

公式 2

其中 $W_j^O\in\mathbb{R}^{D^\prime\times D^\prime}$ 表示线性层的权重。多头注意层的输出特征大小与输入特征大小相同。

接下来，多头注意的输出标记被输入到局部关系块中，该块由两个线性层和一个时间卷积层组成。如图 4 所示，标记首先经过一个线性层，将特征维度从 $D^\prime$ 增加到 $\theta D^\prime$ ，然后经过一个核大小为 $k$ 的时间卷积层，该层将相邻的标记混合起来，为时间标记提供局部位置信息 [23]。最后，另一个线性层将特征维度投影回 $D^\prime$ 。该块中的两个线性层实现了多头注意层和时间卷积层之间的转换。输出特征维度与局部关系块的输入特征保持相同。如果块 $j < B$ ，则此输出将输入到下一个全局关系块。

来自每个阶段的最后一个全局-本地关系块的输出标记被组合并馈送到下一个时间尺度混合器。

3.3. 时间尺度混合器

*在获得不同时间尺度的标记后，剩下的问题是，如何聚合这些多尺度标记以获得统一的视频表示？*为了预测动作概率，我们的分类模块需要在原始时间长度上进行预测作为网络输入。因此，我们需要在时间维度上插入标记，这可以通过执行上采样和线性投影步骤来实现。如图 5 所示，对于来自阶段 $n\in\left\{1,\ ...,\ N\right\}$ 的输出 $F_n$ ，此操作可以表述为，

公式 3

其中 $W^n\in\mathbb{R}^{D_v\times\gamma^{n-1}D}$ ，上采样率为 $n$ 。在我们的分层架构中，较早的阶段（语义较低）具有较高的时间分辨率，而较晚的阶段（语义较高）具有较低的时间分辨率。为了平衡分辨率和语义，来自最后阶段 $N$ 的上采样标记通过线性层处理，并与来自每个阶段（ $n < N$ ）的上采样标记相加。此操作可以表述为，

公式 4

其中 $F_n^\prime$ 是阶段 $n$ 的精炼标记， $\oplus$ 表示逐元素相加， $W_n\in\mathbb{R}^{D_v\times D_v}$ 。这里，所有精炼标记表示具有相同的时间长度。最后，我们将它们连接起来以得到最终的多尺度视频表示 $F_v\in\mathbb{R}^{T\times N D_v}$ 。

公式 5

请注意，可以在这些多尺度标记之上构建更复杂的融合方法 [13,33]。但是，我们发现上面描述的简单版本效果最好。

然后将多尺度视频表示 $F_v$ 发送到分类模块进行预测。

图 5

图 5.时间尺度混合器模块：第 n 阶段的输出标记 F_n 被调整大小并上采样为 T\times D_v，然后与最后一阶段 N 的标记相加。

3.4. 分类模块

通过联合学习两个分类任务，可以训练 MS-TCT。如第 1 节所述，在这项工作中，我们引入了一个新的分类分支来学习动作实例的热图。此热图与地面实况标签不同，因为它会根据动作中心和持续时间随时间变化。使用这种热图表示的目的是在 MS-TCT 的学习标记中编码时间相对定位。

为了训练热图分支，我们首先需要构建类别地面实况热图响应 $G^\ast\in[0,1]^{T×C}$ ，其中 $C$ 表示动作类别的数量。在这项工作中，我们通过考虑一组一维高斯滤波器的最大响应来构造 $G^\ast$ 。每个高斯滤波器对应于视频中以特定动作实例为中心的动作类实例。更准确地说，对于每个时间位置 $t$ ，地面实况热图响应公式为，

公式 6

公式 7

这里， ${\rm Gaussian}\left(·,·;\ \sigma\right)$ 根据中心和实例持续时间提供特定于实例的高斯激活。此外， $\sigma$ 等于每个实例持续时间的 $\frac{1}{2}$ ， $t_{a,c}$ 表示类 $c$ 和实例 $a$ 的中心。 $A_c$ 是视频中类 $c$ 的实例总数。如图 3 所示，热图 $G$ 是使用核大小为 $k$ 且具有非线性激活的时间卷积层计算的，然后是另一个具有 $S$ 形激活的线性层。给定真实值 $G^\ast$ 和预测的热图 $G$ ，我们计算动作焦点损失 [32, 55]，其公式为，

公式 8

其中 $A$ 是视频中动作实例的总数。

与之前的研究 [9,43] 类似，我们利用另一个分支来执行通常的多标签分类。对于视频特征 $F_v$ ，使用两个具有 $S$ 形激活的线性层来计算预测，并根据真实标签计算二元交叉熵（BCE）损失 [36]。只有从此分支预测的分数才会用于评估。两个分支的输入都是相同的输出标记 $F_v$ 。热图分支鼓励模型将相对于实例中心的相对位置嵌入到视频标记 $F_v$ 中。因此，分类分支也可以从此类位置信息中受益，从而做出更好的预测。

总体损失被表述为上述两个损失的加权和，其中权重 $\alpha$ 根据损失的数值规模选择。

公式 9

4. 实验

数据集：我们在三个具有挑战性的多标签动作检测数据集上评估了我们的框架：Charades [41]、TSU [10] 和 MultiTHUMOS [51]。Charades [41] 是一个大型数据集，包含 9848 个日常室内动作视频。该数据集包含 157 个动作类别的 66K+ 时间注释，不同类别的动作实例之间高度重叠。这与其他动作检测数据集（如 ActivityNet [3]）形成对比，后者每个时间步只有一个动作。我们根据数据集的定位设置进行评估 [40]。与 Charades 类似，TSU [10] 也是在室内环境中记录的，并带有密集注释。在给定帧中最多可以同时发生 5 个动作。但是，与 Charades 不同的是，TSU 有许多长期复合动作。MultiTHUMOS [51] 是 THUMOS’14 [24] 的扩展版本，包含 413 个体育视频中 65 个类别的密集多标签动作注释。默认情况下，我们按照 [40,51] 评估这些密集标记数据集上的每帧 mAP。

实施细节：在建议的网络中，我们使用阶段数 $N = 4$ ，每个阶段的全局-局部关系块数 B=3。请注意，对于 MultiTHUMOS 这样的小数据集， $B = 2$ 就足够了。全局关系块的注意力头数量设置为 8。我们使用与 I3D 相同的输出特征维度（全局平均池化之后）作为 MS-TCT 的输入，因此 $D_0=1024$ 。然后在第一阶段，使用时间合并块将输入特征投影到 D=256 维特征中。我们考虑特征扩展率 $\gamma=1.5$ 和 $\theta=8$ 。时间卷积层的核大小 $k$ 设置为 3，使用零填充以保持分辨率。损失平衡因子 $\alpha=0.05。标记数固定为 $T = 256$ 作为 MS-TCT 的输入。在训练期间，我们从给定的 I3D 特征表示中随机抽取连续的 $T$ 个标记。在推理时，我们遵循 [43] 使用滑动窗口方法进行预测。我们的模型在两个 GTX 1080 Ti GPU 上进行训练，批次大小为 32。我们使用 Adam 优化器 [29]，初始学习率为0.0001，按 0.5 倍缩放，耐心为 8 个时期。

4.1. 消融研究

在本节中，我们研究了所提出的网络中每个组件在 Charades 数据集上的有效性。

MS-TCT 中每个组件的重要性：如表 1 所示，仅具有分类分支的 I3D 特征被视为代表性基线。该基线由一个分类器组成，该分类器在每个时间步骤中区分 I3D 特征，而无需任何进一步的时间建模。最重要的是，添加我们的时间编码器显着提高了相对于 I3D 特征基线的性能 (+7.0%)。这种改进反映了时间编码器在建模视频中的时间关系方面的有效性。此外，如果我们引入时间尺度混合器来混合来自不同时间尺度的特征，它可以带来 +0.5% 的改进，而计算量增加最少。最后，我们研究了热图分支在分类模块中的实用性。我们发现，热图分支与分类分支一起优化时效果很好，但单独优化时无法学习判别性表征（25.4% vs 10.7%）。热图分支鼓励标记预测动作中心，同时淡化标记朝向动作边界的程度。相比之下，分类分支平等地改善所有标记的标记表征，而不受动作边界的影响。因此，当一起优化时，两个分支都使模型能够学习更好的动作表征。在拥有所有组件的同时，所提出的网络实现了相对于 I3D 特征基线的显着 +9.8% 的改进，验证了 MSTCT 中的每个组件对于动作检测任务都至关重要。

表 1

表 1. MS-TCT 中每个组件的消融：评估基于 Charades 数据集上的每帧 mAP。

阶段的设计选择：在表 2 中，我们展示了与时间编码器中阶段的设计选择相关的消融。表 2 中的每一行表示在每个阶段中删除一个组件的结果。请注意，删除时间合并块表示用步长为 1 的时间卷积层替换此块，即，仅在阶段之间修改通道维度。在表 2 中，我们发现删除任何组件都会大幅降低性能。这一观察结果表明，在我们的方法中联合建模全局和局部关系的重要性，以及多尺度结构的有效性。MS-TCT 中的这些属性使学习跨越 (1) 相邻时间段和 (2) 远距离时间段的复杂时间关系变得更加容易。

表 2

表 2. 我们时间编码器中单个阶段设计的消融，使用 Charades 数据集上的每帧 mAP 进行评估。

局部关系块的分析：我们还在每个阶段深入研究了局部关系块。如图 4 所示，局部关系块中有两个线性层和一个时间卷积层。在表 3 中，我们进一步对这些组件进行了消融。首先，我们发现如果没有时间卷积层，检测性能会下降。这一观察结果表明将 Transformer token 与时间局部性混合的重要性。其次，我们研究了过渡层（即线性层）的重要性。当特征大小保持不变时，过渡层可以将性能提高 +1.8%，这表明了这种过渡层的重要性。最后，我们研究了扩展率如何影响网络性能。在设置不同的特征扩展率时，我们发现当输入特征处于更高维空间中时，时间卷积可以更好地模拟局部时间关系。

表 3

表 3. 局部关系块设计上的消融：仅使用 RGB 输入的 Charades 上的 Perframe mAP。✗ 指示我们移除线性或时间卷积层。特征扩展率 1 表示特征大小在本地关系块中没有改变。

4.2 与最新技术的比较

在本节中，我们将 MS-TCT 与最先进的动作检测方法进行比较（见表 4）。基于提案的方法（例如 R-C3D [49]）由于动作实例高度重叠而在多标签数据集中失败，这对提案和基于 NMS 的方法提出了挑战。超级事件 [37] 基于一系列可学习的时间过滤器将全局表示叠加到每个局部特征上。但是，动作的分布因视频而异。由于超级事件会为训练分布中的所有视频学习固定的过滤器位置，因此该位置主要适用于高频动作。TGM [38] 和 PDAN [9] 是基于视频片段的时间卷积的方法。然而，这些方法仅在单个时间尺度上对视频进行本地处理。因此，它们在建模长期依赖性和高级语义方面并不有效。粗细网络 [26] 在 Charades 上实现了 25.1%。然而，该方法建立在视频编码器 X3D [17] 之上，这阻止了使用更多输入帧。此外，它依赖于帧之间的大步幅。因此，它无法对细粒度的动作关系进行建模，也无法在 MultiTHUMOS 和 TSU 中处理长视频。MLAD [43] 联合建模每个时间步骤的动作类关系和每个类的时间关系。这种设计会导致巨大的计算成本，同时在具有大量动作类的数据集（例如 Charades）上表现不佳。得益于多尺度层次中的 Transformer 和卷积的结合，所提出的 MS-TCT 在我们考虑的所有三个具有挑战性的多标签动作检测数据集中始终优于之前最先进的方法。我们还比较了在同一视觉编码器（即 I3D 特征）上构建的方法的计算要求（FLOP），将同一批数据作为输入。我们观察到 MS-TCT 的 FLOP 比纯卷积方法（即 PDAN、TGM、超级事件）更高，且有合理的余量。然而，与基于 Transformer 的动作检测方法 MLAD 相比，MS-TCT 仅使用 1/7 的 FLOP。

表 4

表 4. 在三个密集标记数据集上与最新方法的比较。Backbone 表示视觉编码器。请注意，方法的评估基于仅使用 RGB 视频的每帧 mAP (%)。

我们还使用 [43] 中引入的动作条件指标在表 5 中的 Charades 数据集上评估了我们的网络。这些指标用于衡量方法对动作类的共现依赖关系和时间依赖关系进行建模的能力。虽然我们的网络不是专门为 MLAD 中的跨类关系建模而设计的，但它仍然在所有动作条件指标上取得了较大的性能，表明 MSTCT 有效地在时间步长内（即共现动作， $\tau=0$ ）和整个时间维度（ $\tau>0$ ）内建模动作依赖关系。

最后，我们在图 6 中的 Charades 数据集上对 PDAN 和 MS-TCT 进行了定性评估。由于粗细网络的预测类似于仅限于数十帧的 X3D 网络，因此我们无法与整个视频上的粗细网络进行比较。在这里，我们观察到与 PDAN 相比，MS-TCT 可以更准确地预测动作实例。这种比较反映了 Transformer 架构和多尺度时间建模的有效性。

表 5

表 5. 使用行动条件度量 [43] 对 Charades 数据集进行评估：与 MLAD 类似，RGB 和光流都用于评估。PAC-行动条件精度，RAC-行动条件召回，F1AC-行动条件 F1 分数，mAPAC-行动条件性平均精度。τ 表示时间窗口大小。

图 6

图 6. 沿时间轴的示例视频上的检测结果的可视化。在该图中，我们可视化了地面实况以及 PDAN 和 MS-TCT 的检测。

4.3. 讨论与分析

**Transformer、卷积还是 ConvTransformer？**为了确认我们的 ConvTransformer 的有效性，我们将其与纯 Transformer 网络和纯卷积网络进行了比较。每个网络的阶段数与 MS-TCT 相同，设置也类似（例如块、特征维度）。在纯 Transformer 中，池化层和线性层构成时间合并块，每个阶段后跟 $B$ 个 Transformer 块。Transformer 块由多头注意层、normadd 操作和前馈层组成。将学习到的位置嵌入添加到输入标记中以对位置信息进行编码。这种纯 Transformer 架构在 Charades 上实现了 22.3%。在纯卷积模型中，我们保留与 MS-TCT 相同的时间合并块，后跟一堆 $B$ 个时间卷积块。每个块由一个内核大小为 $k$ 的时间卷积层、一个线性层、一个非线性激活和一个残差链接组成。这种纯时间卷积架构在 Charades 上实现了 21.4%。相比之下，提出的 ConvTransformer 的表现远胜于纯 Transformer 和纯卷积网络（在 Charades 上分别提高了 3.1% 和 4.0%。见表 6）。这表明 ConvTransformer 可以更好地模拟复杂动作的时间关系。

表 6

表 6. 对阶段类型的研究展示了卷积和自注意力同时存在的效果。

热图分析：我们在图 7 中将真实热图（ $G^\ast$ ）和相应的预测热图（ $G$ ）可视化。我们观察到，通过热图分支，MS-TCT 预测了动作实例的中心位置，这表明 MS-TCT 将中心相关信息嵌入到了 token 中。但是，当我们使用焦点损失进行优化以突出显示中心时，此热图中动作实例的边界变得不那么明显。然后，我们研究 $\sigma$ 对性能的影响。如表 7 所示，在生成真实热图 $G^\ast$ 时，我们将 $\sigma$ 设置为实例持续时间的 1/8、1/4 或 1/2。当 $G^\ast$ 设置为不同的 $\sigma$ 时，与没有热图分支的 MS-TCT 相比，MS-TCT 分别提高了 +0.5%、+0.7%、+1.3%。该结果反映出较大的 $\sigma$ 可以更好地提供中心相对位置。我们通过向另一个动作检测模型 PDAN [9] 添加热图分支来进一步研究。虽然热图分支也改进了 PDAN（+ 0.4 %），但与 MSTCT（+1.3 %）相比，相对改进较低。我们的方法具有多阶段层次结构以及 TS Mixer。由于热图分支从所有阶段获取输入，因此即使在早期阶段也会嵌入中心相对位置。当这些具有相对位置信息的标记通过以下阶段时，它们有利于多头注意力更好地模拟标记之间的时间关系。与 PDAN 相比，这种设计使 MS-TCT 能够更好地利用热图分支。

表 7

表 7. 关于 \sigma 的研究显示了热图中高斯尺度的影响。

图 7

图 7. 沿时间轴的热图可视化：顶部展示了示例视频的真实热图 (G^\ast)。底部是 MS-TCT 对应的学习热图 (G)。由于热图由高斯函数生成，因此较亮的区域表示更靠近实例的中心。

时间位置嵌入：我们进一步研究 MS-TCT 的时间编码器是否受益于位置嵌入。我们发现，在使用时间编码器处理输入标记之前，将可学习的位置嵌入 [16] 添加到输入标记中时，Charades 的性能会下降 0.2%。这表明当前设计可以隐式地为标记提供时间定位。向标记添加更多位置信息会使其变得多余，从而降低检测性能。

5. 结论

在这项工作中，我们提出了一种用于动作检测的新型 ConvTransformer 网络：MS-TCT。它受益于卷积和自注意力，分别在多个时间尺度上对局部和全局时间关系进行建模。此外，我们引入了一个新分支来学习动作实例中心的类别相对位置。MS-TCT 在三个具有挑战性的密集标记动作检测基准上进行了评估，并在这些基准上取得了新的最佳结果。

参考文献

[1] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luciˇ c, and Cordelia Schmid. VIVIT: A video ´ vision transformer. arXiv preprint arXiv:2103.15691, 2021. 2
[2] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. Is space-time attention all you need for video understanding? arXiv preprint arXiv:2102.05095, 2021. 2
[3] Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, and Juan Carlos Niebles. Activitynet: A large-scale video benchmark for human activity understanding. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 961–970, 2015. 3, 5
[4] Joao Carreira and Andrew Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4724–4733. IEEE, 2017. 2, 3
[5] Guang Chen, Can Zhang, and Yuexian Zou. AFNet: Temporal Locality-aware Network with Dual Structure for Accurate and Fast Action Detection. IEEE Transactions on Multimedia, 2020. 2
[6] Bowen Cheng, Alexander G Schwing, and Alexander Kirillov. Per-pixel classification is not all you need for semantic segmentation. arXiv preprint arXiv:2107.06278, 2021. 2
[7] Rui Dai, Srijan Das, and Francois Bremond. Learning an augmented rgb representation with cross-modal knowledge distillation for action detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 13053–13064, October 2021. 2
[8] Rui Dai, Srijan Das, and Francois F Bremond. CTRN: Class Temporal Relational Network For Action Detection. In BMVC 2021 - The British Machine Vision Conference, Virtual, United Kingdom, Nov. 2021. 1
[9] Rui Dai, Srijan Das, Luca Minciullo, Lorenzo Garattoni, Gianpiero Francesca, and Francois Bremond. PDAN: Pyramid Dilated Attention Network for Action Detection. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pages 2970–2979, January 2021. 1, 2, 3, 5, 7, 8
[10] Rui Dai, Srijan Das, Saurav Sharma, Luca Minciullo, Lorenzo Garattoni, Francois Bremond, and Gianpiero Francesca. Toyota Smarthome Untrimmed: Real-World Untrimmed Videos for Activity Detection. arXiv preprint arXiv:2010.14982, 2020. 1, 2, 3, 5
[11] Rui Dai, Luca Minciullo, Lorenzo Garattoni, Gianpiero Francesca, and Franc¸ois Bremond. Self-attention temporal convolutional network for long-term daily living activity detection. In 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), pages 1–7. IEEE, 2019. 1
[12] Xiyang Dai, Bharat Singh, Joe Yue-Hei Ng, and Larry Davis. Tan: Temporal aggregation network for dense multi-label action recognition. In 2019 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 151–160. IEEE, 2019. 1, 2
[13] Yimian Dai, Fabian Gieseke, Stefan Oehmcke, Yiquan Wu, and Kobus Barnard. Attentional feature fusion. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 3560–3569, 2021. 5
[14] Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Sanja Fidler, Antonino Furnari, Evangelos Kazakos, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, and Michael Wray. Scaling egocentric vision: The epickitchens dataset. In European Conference on Computer Vision (ECCV), 2018. 2
[15] Stephane d’Ascoli, Hugo Touvron, Matthew Leavitt, Ari ´ Morcos, Giulio Biroli, and Levent Sagun. Convit: Improving vision transformers with soft convolutional inductive biases. arXiv preprint arXiv:2103.10697, 2021. 2, 3
[16] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. 1, 2, 8
[17] Christoph Feichtenhofer. X3d: Expanding architectures for efficient video recognition, 2020. 2, 7
[18] Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and Kaiming He. Slowfast networks for video recognition. CoRR, abs/1812.03982, 2018. 2
[19] Kunihiko Fukushima. Cognitron: A self-organizing multilayered neural network. Biological cybernetics, 20(3):121– 136, 1975. 4
[20] Joshua Gleason, Rajeev Ranjan, Steven Schwarcz, Carlos Castillo, Jun-Cheng Chen, and Rama Chellappa. A proposal-based solution to spatio-temporal action detection in untrimmed videos. In 2019 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 141–150. IEEE, 2019. 2
[21] Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu, and Yunhe Wang. CMT: Convolutional Neural Networks Meet Vision Transformers. arXiv preprint arXiv:2107.06263, 2021. 2, 3
[22] David H Hubel and Torsten N Wiesel. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex. The Journal of physiology, 160(1):106–154, 1962. 4
[23] Md Amirul Islam, Sen Jia, and Neil DB Bruce. How much position information do convolutional neural networks encode? arXiv preprint arXiv:2001.08248, 2020. 2, 4
[24] Yu-Gang. Jiang, Jingen Liu, Amir Roshan Zamir, George Toderici, Ivan Laptev, Mubarak Shah, and Rahul Sukthankar. THUMOS Challenge: Action Recognition with a Large Number of Classes. http://crcv.ucf.edu/ THUMOS14/, 2014. 3, 5
[25] Kumara Kahatapitiya, Zhou Ren, Haoxiang Li, Zhenyu Wu, and Michael S Ryoo. Self-supervised Pretraining with Classification Labels for Temporal Activity Detection. arXiv preprint arXiv:2111.13675, 2021. 2
[26] Kumara Kahatapitiya and Michael S Ryoo. Coarse-Fine Networks for Temporal Activity Detection in Videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8385–8394, 2021. 2, 7
[27] Kumara Kahatapitiya and Michael S Ryoo. SWAT: Spatial Structure Within and Among Tokens. arXiv preprint arXiv:2111.13677, 2021. 3
[28] Evangelos Kazakos, Jaesung Huh, Arsha Nagrani, Andrew Zisserman, and Dima Damen. With a little help from my temporal context: Multimodal egocentric action recognition. In British Machine Vision Conference (BMVC), 2021. 2
[29] Diederik P. Kingma and Jimmy Ba. Adam: A Method for Stochastic Optimization. CoRR, abs/1412.6980, 2014. 6
[30] Colin Lea, Michael D Flynn, Rene Vidal, Austin Reiter, and Gregory D Hager. Temporal convolutional networks for action segmentation and detection. In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 156–165, 2017. 1, 3
[31] Tianwei Lin, Xu Zhao, and Zheng Shou. Single shot temporal action detection. In Proceedings of the 25th ACM international conference on Multimedia, pages 988–996. ACM, 2017. 2
[32] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollar. Focal loss for dense object detection. In ´ Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017. 5
[33] Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia. Path aggregation network for instance segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8759–8768, 2018. 5
[34] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030, 2021. 1, 2
[35] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, and Han Hu. Video swin transformer. arXiv preprint arXiv:2106.13230, 2021. 2
[36] Jinseok Nam, Jungi Kim, Eneldo Loza Menc´ıa, Iryna Gurevych, and Johannes Furnkranz. Large-scale multi-label ¨ text classification—revisiting neural networks. In Joint european conference on machine learning and knowledge discovery in databases, pages 437–452. Springer, 2014. 5
[37] AJ Piergiovanni and Michael S Ryoo. Learning latent superevents to detect multiple activities in videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018. 2, 7
[38] AJ Piergiovanni and Michael S Ryoo. Temporal gaussian mixture layer for videos. International Conference on Machine Learning (ICML), 2019. 1, 2, 3, 7
[39] Michael Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, and Anelia Angelova. TokenLearner: Adaptive Space-Time Tokenization for Videos. Advances in Neural Information Processing Systems, 34, 2021. 2
[40] Gunnar A Sigurdsson, Santosh Divvala, Ali Farhadi, and Abhinav Gupta. Asynchronous temporal fields for action recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 585–594, 2017. 5
[41] Gunnar A. Sigurdsson, Gul Varol, Xiaolong Wang, Ali ¨ Farhadi, Ivan Laptev, and Abhinav Gupta. Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding. In European Conference on Computer Vision(ECCV), 2016. 1, 2, 3, 5
[42] Jing Tan, Jiaqi Tang, Limin Wang, and Gangshan Wu. Relaxed transformer decoders for direct action proposal generation. arXiv preprint arXiv:2102.01894, 2021. 1, 3
[43] Praveen Tirupattur, Kevin Duarte, Yogesh Rawat, and Mubarak Shah. Modeling multi-label action dependencies for temporal action localization. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021. 1, 3, 5, 6, 7, 8
[44] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017. 1, 2, 3, 4
[45] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. PVTv2: Improved baselines with pyramid vision transformer. arXiv preprint arXiv:2106.13797, 2021. 2
[46] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. arXiv preprint arXiv:2102.12122, 2021. 2
[47] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, and Lei Zhang. CVT: Introducing convolutions to vision transformers. arXiv preprint arXiv:2103.15808, 2021. 3
[48] Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M Alvarez, and Ping Luo. Segformer: Simple and efficient design for semantic segmentation with transformers. arXiv preprint arXiv:2105.15203, 2021. 2
[49] Huijuan Xu, Abir Das, and Kate Saenko. R-c3d: Region convolutional 3d network for temporal activity detection. In Proceedings of the IEEE international conference on computer vision, pages 5783–5792, 2017. 2, 6, 7
[50] Mengmeng Xu, Chen Zhao, David S Rojas, Ali Thabet, and Bernard Ghanem. G-TAD: Sub-graph localization for temporal action detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10156–10165, 2020. 2
[51] Serena Yeung, Olga Russakovsky, Ning Jin, Mykhaylo Andriluka, Greg Mori, and Li Fei-Fei. Every moment counts: Dense detailed labeling of actions in complex videos. International Journal of Computer Vision, 126(2-4):375–389, 2018. 1, 2, 5
[52] Chuhan Zhang, Ankush Gputa, and Andrew Zisserman. Temporal query networks for fine-grained video understanding. In Conference on Computer Vision and Pattern Recognition (CVPR), 2021. 2
[53] Hang Zhao, Antonio Torralba, Lorenzo Torresani, and Zhicheng Yan. HACS: Human action clips and segments dataset for recognition and temporal localization. In Proceedings of the IEEE International Conference on Computer Vision, pages 8668–8678, 2019. 2
[54] Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Zihang Jiang, Qibin Hou, and Jiashi Feng. Deepvit: Towards deeper vision transformer. arXiv preprint arXiv:2103.11886, 2021. 2
[55] Xingyi Zhou, Dequan Wang, and Philipp Krahenb ¨ uhl. Ob- ¨ jects as points. arXiv preprint arXiv:1904.07850, 2019. 5
[56] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable trans-formers for end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020. 1, 2, 3