行为识别(CVPR2020南京大学&腾讯) ~ TEA论文笔记 ~《TEA: Temporal Excitation and Aggregation for Action Recognition》

最新推荐文章于 2024-06-12 09:31:32 发布

雁飞鸣

最新推荐文章于 2024-06-12 09:31:32 发布

阅读量5.1k

点赞数 3

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_41447373/article/details/108705961

版权

有兴趣的朋友可以相互讨论技术

论文：https://arxiv.org/abs/2004.01398

官方代码：https://github.com/Phoenix1327/tea-action-recognition

Abstract

时间建模是视频动作识别的关键。它通常同时考虑短期运动和长期聚集。在本文中，我们提出了一个时间激励与聚集（TEA）模块，包括一个运动激励（ME）模块和一个多时间聚集（MTA）模块，专门用来捕捉短期和长期的时间演化。特别是，对于短距离运动建模，ME模块计算来自时空特征的特征级时间差异。然后利用这些差异来激发特征的运动敏感通道。以往研究中的长时间聚集通常是通过叠加大量的局部时间卷积来实现的。每个卷积一次处理一个局部时间窗口。相比之下，MTA模块提出将局部卷积变形为一组子卷积，形成一个层次化的残差结构。在不引入额外参数的情况下，对特征进行一系列的子卷积处理，每帧都可以通过邻域完成多个时间聚集。最终等效时间维的感受野被相应地放大，这样能够模拟远距离帧上的长距离时间关系。TEA块的两个组成部分在时间建模中是互补的。最后，我们的方法在几个动作识别基准（如dynamics，Something，HMDB51和UCF101）上取得了很好的结果（low FLOPs），这证实了它的有效性和效率。

1. Introduction

动作识别是基于视频任务的一个基本问题。它在基于视频的应用中要求越来越高，例如智能监控、自动驾驶、个人推荐和娱乐[30]。虽然视觉外观（及其上下文）对于动作识别很重要，但是时间结构的建模是非常重要的。时域建模通常在不同的尺度下呈现（或被考虑）：1）相邻帧之间的短距离运动；2）大尺度上的长时间聚集。有一系列的工作考虑了这两个方面的一个或两个方面，特别是在当前深度CNN的时代。然而，它们仍然存在一些空白，问题远未得到解决，即如何有效、高效地对具有显著变化和复杂性的时间结构进行建模仍然是个未知数。

对于短距离运动编码（short-range motion encoding），现有的大多数方法[33，44]首先手动提取光流[50]，然后将其输入基于2D-CNN的双流框架（two-stream framework）进行动作识别。这种双流结构分别处理每个流中的RGB图像和光流。光流的计算是一个耗时和存储量大的问题。特别是，空间和时间特征的学习是孤立的，融合只在最后一层进行。为了解决这些问题，我们提出了一个运动激励（ME）模块。该模块不采用像素级光流作为附加输入方式，将训练的时间流和空间流分离开来，将运动建模集成到整个时空特征学习方法中。具体来说，首先计算相邻帧之间的特征级运动表示。然后利用这些运动特征来产生调制权重。最后，利用权值可以激发出帧原始特征中的运动敏感信息。这样，网络就不得不发现并增强捕捉差异化信息的信息时态特征。

对于长时间聚集（long-range temporal aggregation），现有的方法，要么1）采用2D-CNN主干网络提取帧特征，然后利用简单的时间最大/平均池（max/average pooling）来获得整个视频的表示[44,11]。然而，这种简单的摘要策略会导致时间信息丢失/混乱；或者2）采用局部3D/（2+1）D卷积运算来处理局部时间窗口[38,3]。在深部网络中，通过反复叠加局部卷积来间接模拟长程时间关系。然而，重复大量的局部操作将导致优化困难[15]，因为消息需要通过远程帧之间的长路径传播。为了解决这个问题，我们引入了一个多时态聚合（MTA）模块。MTA模块也采用了（2+1）D卷积，但在MTA，一组子卷积代替了一维时间卷积。子卷积在相邻子集之间使用残差连接形成了一个层次结构。当时空特征通过该模块时，特征实现了与相邻帧的多次信息交换，从而使等效的时间感受野成倍增加，以模拟长时间的动态变化。

将所提出的ME模块和MTA模块插入标准ResNet[15,16]中，建立时间激励和聚集（TEA）块，整个网络由多个块堆叠而成。得到的模型是有效的：得益于轻量级的结构，TEA网络的FLOPs被控制在较低的水平（仅为2D ResNet的1.06倍）。所提出的模型也是有效的：TEA的两个组成部分相互补充，相互配合，赋予网络短期和长期时间建模能力。综上所述，我们的方法的主要贡献有三个方面：

1、运动激励（ME）模块将短时间运动建模与整个时空特征学习方法相结合。

2、多时态聚集（MTA）模块可以有效地扩大时间感受野，用于长距离时间建模。

3、所提出的两个模块都是简单、轻量级的，并且可以很容易地集成到标准ResNet块中，以便进行有效和高效的时序建模。

2. Related Works

随着深度学习方法在基于图像的识别任务上的巨大成功[24,34,37,15,16]，一些研究者开始探索深度网络在视频动作识别任务中的应用[23,33,38,49,6,48]。其中，Karpathy等人。[23]提出在视频的每一帧上单独应用一个2D-CNN模型，并探索了几种融合时间信息的策略。然而，该方法没有考虑帧间的运动变化，最终的性能不如手工制作的基于特征的算法。Donahue等人[6] 使用LSTM[17]通过聚集2D CNN特征来建模时间关系。该方法将每帧图像的特征提取分离，只考虑高层次的2D CNN特征，进行时间关系学习。

现有的方法通常遵循两种方法来提高时间建模能力。第一种是基于Simonyan和Zisserman提出的双流（two-stream）体系结构[33]。该体系结构包含一个从帧中学习静态特征的空间2D CNN和以光流形式建模运动信息的时间2D CNN。将两个流的训练分离，并在两个流上对视频的最终预测取平均值。随后的许多工作扩展了这样一个框架。[9,8]探索不同的组合策略，融合两个流的特征。TSN[44]提出了稀疏采样策略来捕获远程视频片段。所有这些方法都需要额外的计算和存储成本来处理光流。此外，不同的框架和两种模式之间的相互作用是有限的，通常只发生在最后层。相比之下，我们提出的方法摒弃光流提取，通过计算时间差来学习近似的特征级运动表示。运动编码可以与时空特征的学习结合起来，用来发现和增强其运动敏感成分。

最近的工作STM[22]也试图对特征级的运动特征进行建模，并将运动建模插入到时空特征学习中。与STM的不同之处在于STM直接将时空特征和运动编码结合起来。相比之下，我们的方法利用运动特征来重新校准特征来增强运动模式。

另一种典型的视频动作识别方法是基于3D-CNN及其（2+1）D CNN变体[38,36,3,40,46]。这方面的第一个工作是C3D[38]，它在相邻帧上执行3D卷积，以统一的方法联合建模空间和时间特征。为了利用预先训练的2D-cnn，Carreira和Zisserman[3]提出了I3D将预训练的2D卷积膨胀为3D卷积。为了减少3D-CNN的繁重计算，一些工作提出将3D卷积分解为2D空间卷积和1D时间卷积[36,5,27,14,31,39]，或者利用2D-CNN和3D-CNN的混合[40,47,54]。在这些方法中，理论上可以通过叠加多个局部时间卷积来建立远程时间连接。然而，经过大量的局部卷积运算后，来自远程帧的有用特征已经被削弱，无法很好地捕捉到。为了解决这个问题，T3D[5]提出采用密集连接结构[20]，并结合不同的时间窗口[37]。非局部模块[45]和stnet[14]将自我注意机制应用于长期时间关系的建模。伴随这些尝试的是附加参数或耗时的操作。与这些工作不同的是，我们提出的多时态聚合模块在不引入额外的算子的情况下简单而高效。

3. Our Method

所提出方法的框架如图1所示。采用TSN[44]提出的稀疏时间采样策略对可变长度的输入视频进行采样。首先，将视频平均分成T段。然后从每一段中随机选取一帧，形成T帧的输入序列。对于时空建模，我们的模型基于2D CNN ResNet[15]，并通过叠加多个时间激励和聚集（TEA）块构建。TEA块包含一个用于激发运动模式的运动激励（ME）模块和用于建立长程时间关系的多时间聚集（MTA）模块。按照以前的方法[44，27]，在模型的末尾使用简单的时间平均池来平均所有帧的预测。

3.1. Motion Excitation (ME) Module

运动测量两个连续框架的内容位移，主要反映实际动作。许多以前的工作利用运动表示进行动作识别[44,3]。然而，大多数算法只考虑光流形式的像素级运动模式[50]，并将运动学习与时空特征分离开来。与此不同的是，在所提出的运动激励（ME）模块中，运动建模从原始像素级扩展到大范围的特征级，从而将运动建模和时空特征学习融合到一个统一的框架中。

ME模块的架构如图2的左面板所示。输入时空特征X的形状为[N；T；C；H；W]，其中N是批大小（batch size）。T和C分别表示时间维和特征通道。H和W对应于空间形状。所提出的ME模块是，在所有特征通道中，不同的通道将捕获不同的信息。一部分通道倾向于对与背景场景相关的静态信息进行建模，而其他通道则主要关注描述时间差异的动态运动模式。对于动作识别，使模型能够发现并增强这些运动敏感通道是有益的。

在给定输入特征X的情况下，首先采用1×1二维卷积层来减少特征通道，以提高效率。

将时间步长 t 处的特征级运动表示近似地看作两个相邻帧Xr（t）和Xr（t+1）之间的差。我们提出先对特征进行信道变换，然后利用变换后的特征计算运动，而不是直接减去原始特征。形式上，

我们将时间步末的运动特征表示为零，即M（T）=0，并将所有的运动特征串联起来构造最终的运动矩阵M（1）；：：：；M（T）]。然后利用全局平均池层来总结空间信息，因为我们的目标是激发运动敏感通道，其中详细的空间布局并不重要：

利用另一个1×1二维卷积层 $conv_{exp}$ 将运动特征的通道维数扩展到原始通道维数C，并利用sigmoid函数得到运动注意权重A

最后，该模块的目标是激发运动敏感通道，因此，一个简单的方法是在输入特征X和注意权重a之间进行信道乘法，但是这种方法会抑制静态背景场景信息，这也有利于动作识别。为了解决这一问题，在提出的基于运动的激励模块中，我们提出采用残差连接来增强运动信息，同时保留场景信息。

3.1.1 Discussion with SENet

SENet[19，18]首次提出了一种用于图像识别的激励方案。我们想强调我们与SENet的不同之处。

1） SENet是为基于图像的任务而设计的。当SENet应用于时空特征时，它不考虑时间信息，独立地处理视频的每一帧。

2） SENet是一种自选选通机制[42]，所获得的调制权值用于增强特征X的信息通道，而我们的模块旨在增强特征的运动敏感成分。

3）在SENet中，无用信道将被完全抑制，我们通过引入一个剩余连接，可以在模块中保留静态背景信息。

3.2. Multiple Temporal Aggregation (MTA) Module

以往的动作识别方法[38，36]通常采用局部时间卷积来一次处理相邻帧，并且只有在具有大量堆积的局部操作的深层网络中才能对长程时间结构进行建模。这是一种无效的方法，因为从远程帧发送的优化消息已经被大大削弱并且不能很好地处理。为了解决这个问题，我们提出了多时态聚合（MTA）模块来进行有效的远程时态建模。MTA模块受Res2Net[10]的启发，将时空特征和相应的局部卷积层分成一组子集。这种方法是有效的，因为它不引入额外的参数和耗时的操作。在该模块中，子集被描述为一个层次剩余结构，使得一系列的子卷积被连续地应用到特征上，从而扩大了时间维的等效接受场。

如图2的右上角所示，给定一个输入特征X，一个典型的方法是用一个局部时间卷积和另一个空间卷积来处理它。与此不同的是，我们沿着通道维度将特征分成四个片段，每个片段的形状就变成了[N；T；C=4；H；W]。局部卷积也被分成多个子卷积。最后三个片段依次用一个信道方向的时间子卷积层和另一个空间子卷积层进行处理。每一个参数只有原来的1/4。此外，在相邻的两个片段之间增加了剩余连接，将模块从并行结构转换为层次级联结构。

在这个模块中，不同的片段有不同的感受野。例如，第一片段 $X_{1}^{o}$ 的输出与输入片段 $X_{1}$ 相同，因此其感受野为1×1×1。通过将先前片段的信息串联起来，最后一个片段 $X_{4}^{o}$ 的等效感受野扩大了三倍。最后，采用一种简单的级联策略来组合多个输出。

得到的输出特征Xo涉及捕捉不同时间范围的时空表示。它优于典型方法中使用单个局部卷积得到的局部时间表示。

3.3. Integration with ResNet Block

最后，我们描述了如何将所提出的模块集成到标准ResNet块[15]中来构造我们的时间激励和聚集（TEA）块。该方法如图3所示。为了提高计算效率，将运动激励（ME）模块集成到bottleneck层（第一个1×1conv层）后的剩余路径中。利用多时态聚合（MTA）模块来替换剩余路径中原有的3×3conv层。动作识别网络可以通过叠加TEA块来构建。

4. Experiments

4.1. Datasets

提出的方法是在两个大型动作识别数据集上进行评估的，Something-Something V1[13]和Kinetic400[3]，以及其他两个小规模的数据集HMDB51[25]和UCF101[35]。正如[47，53]所指出的，Kinetics、HMDB和UCF中的大多数类别只需考虑背景场景信息即可识别，而时间理解在大多数情况下并不十分重要。而Something-Something的范畴则侧重于人类与日常生活对象的互动，例如“拉某物”和“推某物”。对这些交互作用进行分类需要更多地考虑时间信息。因此，由于我们的目标是提高时间建模能力，因此本文所提出的方法主要是在某些方面进行评估。

Kinetics包含400个类别，并提供∼240k训练视频和∼20k验证视频的下载URL链接。在我们的实验中，我们成功地收集了223127个培训视频和18153个验证视频，因为有一小部分（约10%）的网址不再有效。对于Kinetics数据集，在训练集上学习方法并在验证集上进行评估。HMDB包含51个类和6766 个视频，而UCF包含101个类别和13320个视频。对于这两个数据集，我们遵循TSN[44]使用三种不同的训练/测试分割进行评估，并报告平均结果。

Something Something V1包括174个类别，86017个训练视频、11522个验证视频和10960个测试视频。所有这些帧都以相同的速率被分割成单独的帧，并且提取的帧也可以公开使用。这些方法在训练集上学习，在验证集和测试集上进行测试。

4.2. Implementation Details

我们使用2D ResNet-50作为主干，从conv2到conv5使用TEA块替换每个ResNet块。稀疏采样策略[44]用于从视频片段中提取T帧（在我们的实验中T=8或16）。在训练过程中，利用随机缩放和角点裁剪进行数据扩充，每帧裁剪区域大小为224×224。

在测试过程中，考虑了两种评价方案来权衡精度和速度。1）高效协议（中心裁剪×1个剪辑），从视频中抽取1个具有T帧的剪辑。每个帧的大小被调整到256×256，并且裁剪出224×224大小的中心区域用于动作预测。2）准确度协议（全分辨率×10个剪辑），从视频中随机抽取10个不同的片段，通过平均所有片段的得分得到最终预测。对于视频片段中的每一帧，我们遵循[45]提出的策略，在保持纵横比的前提下，将较短的大小调整为256。然后对抽样的覆盖整个帧的3个256×256进行动作预测。

4.3. Experimental Results

4.3.1 Ablation Study

在这一部分中，我们首先进行了几个消融实验来验证我们提出的TEA块中不同成分的有效性。在不损失通用性的前提下，模型在Something V1训练集中用8帧进行训练，并在验证集上进行评估。为了进行比较，考虑了六个基线网络，其相应的块如图4所示。比较结果，包括分类精度和推理协议，如表1所示：

• （2+1）D ResNet。在标准ResNet块的剩余分支中，在第一个2D空间卷积之后插入一维信道时间卷积。

•（2+1）D Res2Net。信道方向的时间卷积被集成到Res2Net块中[10]。在Res2Net中，ResNet块的3×3空间卷积变形为一组子卷积。

• Multiple Temporal Aggregation (MTA)。将运动激励模块从所提出的TEA网络中移除。

• Motion Excitation（ME）。与（2+1）D ResNet 基准相比，在剩余路径中增加了运动激励模块。

•（2+1）D SENet。SE模块[19，18]取代了ME基线中的运动激励模块。SE模块利用两个完全连接的层从原始特征中产生调制权重，然后应用所获得的权重来重新缩放特征。

• ME w/o Residual。将剩余连接从ME基准中移除。因此，通过直接将输入特征与运动敏感权重相乘来获得输出特征，即

Effect of Multiple Temporal Aggregation.

首先，从表1的第一个分区可以看出，MTA基线以较大幅度（47.5%对46.0%）优于（2+1）D ResNet基线。与（2+1）D ResNet基线相比，利用层次结构来扩大各块中时间维度的等效接收域，可以在MTA模块中构造出能够实现的长距离时间聚集，从而提高了性能。此外，考虑到所提出的MTA模块扩大了空间和时间接收域，因此有必要确定这两个方面的独立影响。为此，我们将（2+1）D ResNet基线与（2+1）D Res2Net基线进行比较。在（2+1）D Res2Net中，只将子卷积组应用于空间维，且时间维的等效接收场不变。结果表明，两条基线的准确度相似，均低于MTA（46.0%/46.2%，47.5%）。研究复杂的空间结构和复杂的空间表示在一定程度上限制了对动作识别任务的影响。提高动作识别性能的关键是能够可靠的时间建模能力。

Effect of Motion Modeling.

为了验证运动模型在动作识别中的有效性，我们将ME基线与（2+1）D ResNet基线进行了比较。在表1的第二部分中，我们可以看到，考虑到运动编码，动作识别性能显著提高（48.1%对46.0%）。运动敏感特征的发现将迫使网络关注反映实际行动的动态信息。

为了证明这种改进不是通过引入额外的参数和软注意机制，运动建模的效果。然后我们比较（2+1）D SENet基线和（2+1）D ResNet基线。（2+1）D SENet在主干道的起始处加入SE块，以激发信息特征通道。然而，SE块独立地应用于视频的每一帧，并且不考虑时间信息。因此，（2+1）D SENet基线的性能与（2+1）D ResNet基线的性能相似（46.5%对46.0%）。改进是相当有限的。最后，我们探讨了几种运动建模的设计。我们首先比较ME基线和ME w/o残差基线。可以看出，在没有残留连接的情况下，性能从48.1%下降到47.2%，因为在没有残留连接的情况下，与静态信息相关的背景场景将被消除。结果表明，场景信息对动作识别也有一定的帮助，运动激励模块需要残差连接。然后将ME基线与STM进行比较[22]。我们可以看到ME比STM有更高的精确度（48.4%比47.5%），这证明了本文方法中使用的激发机制优于STM中使用的简单加法方法。通过引入MTA模块来考虑长程时间关系，我们的方法（TEA）的准确度可以进一步提高到48.9%。

4.3.2 Comparisons with the State-of-the-arts

在本节中，我们首先将TEA与现有最先进的动作识别方法（V1和Kinetics400数据集）进行比较。综合统计，包括分类结果、推理协议和相应的FLOPs，如表2和3所示。

在这两个表中，第一个分区包含基于3D CNNs的方法或2D和3D CNNs的混合，第二个分区中的方法都基于2D或（2+1）D cnn。由于3D CNNs计算量大，第一格方法的FLOPs通常高于其他方法。在现有的所有方法中，效率最高的是TSN8f[44]和TSM8f[27]，只有33G的浮点运算。与这些方法相比，我们提出的TEA网络的FLOPs稍有增加，达到35G（1.06×），但性能却大幅度提高，相对提高了5.4%（48.8%对43.4%）。

我们的TEA在Something-Something数据集上的性能很好。证实了TEA在时间建模方面的显著能力。使用高效的推理协议（center crop×1 clip）和8个输入帧，TEA得到了48.8%的结果，明显优于TSN和TSM，具有相似的flop（19.7%/43.4%）。这一结果甚至超过了TSM的集合结果，后者分别使用8帧和16帧（TSMEn，46.8%）。当使用16帧作为输入，并采用更费时的精度评估协议（full resolution×10 clips），我们的方法的浮点数增加到∼2000G，类似于NL I3D+GCN[46]。但在验证集上，该方法明显优于NL-I3D+GCN和所有其他现有方法（52.3%对46.1%）。我们在测试集上的性能（46.6%）也优于大多数现有的方法。此外，我们不需要额外的COCO图像[28]来预训练对象检测器，如[46]所述。与同时使用RGB和光流模式的方法，即ECOEn-（RGB+flow）[54]（49.5%）和TSM-（RGB+flow）[27]（50.2%）的方法相比，所得结果（52.3%）也有显著改善。

在Kinetics400上，我们的方法（76.1%）的性能不如SlowFast[7]（79.8%）。然而，慢速网络采用基于3D-CNNs的深层网络（ResNet101），并利用耗时的非本地[45]操作。当比较效率相似的方法时，如TSM[27]和STM[22]，TEA获得了更好的性能。当采用8帧输入时，TEA比TSM提高了1%的准确率（75.0%比74.1%）。在使用16个输入帧的情况下，我们的TEA方法比TSM16f和STM 16f有更大的优势（76.1%对74.7%/73.7%）。

最后，我们在表4中报告了HMDB51和UCF101的比较结果。我们的方法在HMDB51上达到73.3%，在UCF101上达到96.9%。我们的模型（TEA16f）的性能优于除I3D外的大多数现有方法[3]。I3D是基于3D-CNNs和附加的输入形式，因此，它的计算FLOPs将远远超过我们的。

5. Conclusion

在本文中，我们提出了时间激励和聚集（TEA）模块，包括用于短期和长期时间建模的运动激励（ME）模块和多时间聚集（MTA）模块。具体来说，ME模块可以将运动编码嵌入时空特征学习方法中，增强时空特征中的运动模式。在MTA模块中，通过将局部卷积变形为一组子卷积来扩大等效时间感受野，可以建立可靠的长程时间关系。提出的两个模块被集成到标准ResNet块中，并协同工作以进行时序建模。

附录：

A. Temporal Convolutions in TEA

对于视频动作识别任务，以往的研究通常采用三维卷积来同时建模空间和时间特征，或者利用（2+1）D卷积来分离时间表示学习和空间特征建模。三维卷积将带来巨大的计算成本，并排除了利用ImageNet预训练的好处。此外，时空建模的融合也使得模型更难优化。因此，如正文图2所示，在我们提出的TEA模块中，我们选择（2+1）D架构，并采用分离的1D时间卷积来处理时间信息。为了训练（2+1）D模型，一种简单的方法是从ImageNet预先训练的网络中对2D空间卷积进行微调，同时用随机噪声初始化一维时间卷积的参数。

然而，根据我们的观察，在一个统一的框架内同时优化时间卷积和空间卷积会导致矛盾，因为时间卷积带来的帧间时间信息交换可能会损害空间建模能力。在这一节中，我们将描述一个有用的策略来处理这个问题，以有效地优化视频识别模型中的时间卷积。

在介绍该策略之前，我们首先回顾了最近提出的动作识别方法TSM[27]。不同于以往采用时间卷积的方法[40,47]，TSM利用一种巧妙的shift算子赋予模型时间建模能力，而不需要在2D CNN主干中引入任何参数。具体地说，给定一个输入特征X，用shift操作来表示特征通道沿时间维的移动。假设输入特征为五维张量，左/右算子伪码示例如下：

通过使用这种shift操作，时间步长t的空间特征X[：；t；：；：；：]实现相邻时间步t-1和t+1之间的时间信息交换。在实践中，shift操作可以在所有或部分特征通道上进行，作者探索了几种shift选项[27]。最后，他们发现，如果所有或大部分的特征通道被移动，则由于空间建模能力的降低，性能会下降。

这一观察结果的可能原因是，TSM利用在ImageNet上预先训练的2D CNN backbone作为初始化来微调新视频数据集上的模型。使用这种预训练方法的好处是，预先训练的ImageNet模型的特征将包含一些有用的空间表示。但是在将一部分特征通道转移到相邻的帧后，由这些通道所建立的有用的空间表示对于当前帧是不可访问的。新获得的表示是三个连续帧的组合，即t-1、t和t+1，这些帧是无序的，对于当前帧t来说可能是“无意义的”。为了平衡这两个方面，TSM实验上选择移动一小部分特征通道。更具体地说，第一个1/8个通道左移，第二个1/8通道右移，最后3/4个通道固定。Formally;

这种部分shift操作在TSM中被证明是有效的，并且在几个基准上获得了令人印象深刻的动作识别精度。当我们仔细考虑TSM提出的移位操作时，我们发现它实际上是一般1D时间卷积的一个特例，我们将用一个例子来说明这一点。我们的目的不是像等式9那样对输入特征X进行移位运算，而是利用一维信道方向的时间卷积来实现对X的相同控制（为了简单起见，我们利用信道卷积，等式10中的公式可以扩展到一般卷积）。具体地说，对核大小为3的输入特征进行一维信道时间卷积，移位信道处的核权值设为固定的[0；0；1]或[1；0；0]，不变信道下的核权值设为固定的[0；1；0]。形式上，

其中K表示卷积核，而*表示卷积运算。不难看出，方程式10与方程式9完全相等。TSM中提出的移位操作可以看作是一个一维时间卷积运算，其核权值是预先设计好的。因此，一个自然的问题是，是否可以通过将固定的核权值放宽到可学习的核权值来提高视频动作识别的性能。我们用实验来验证这个问题。实验是基于（2+1）D ResNet基线进行的。基线的详细描述在正文的4.3.1节中介绍。我们设计了几种（2+1）D ResNet的变体，这些变体之间唯一的区别是使用的1D时间卷积的类型。

•（2+1）D ResNet Conv，采用一般的1D时间卷积。时间卷积的参数是随机初始化的。

•（2+1）D ResNet CW，利用信道方向的时间卷积。参数也是随机初始化的。

•（2+1）D ResNet-Shift。在该变体中，也使用信道时间卷积，但是时间卷积的参数如等式10中所示被初始化，以便在模型学习开始时执行类似的部分移位运算符。

在训练过程中，三个变量的时间卷积参数都是可学习的，最终得到的模型在Something-Something V1上以8帧为输入，采用有效的推理协议进行评估。

比较结果见表5。我们首先注意到，当比较（2+1）D ResNet Conv和（2+1）D ResNet CW时，（2+1）D ResNet Conv基线无法获得可接受的性能。正如我们在正文中所提到的，空间特征的不同通道捕获的信息不同，因此，每个通道的时间组合应该是不同的，并且是独立学习的。此外，一般的时间卷积会引入大量的参数，使模型更难优化。

第二个观察结果是（2+1）D ResNet CW的性能仅略高于TSM（43.6%和43.4%）。虽然可学习的核权值赋予模型学习动态时间信息交换模式的能力，但所有特征通道都被随机初始化的卷积所扰乱。它最终导致空间特征学习能力的损害，并抵消了有效的时间表示学习的好处。

受TSM中部分移位策略的启发，（2+1）D ResNet shift提出将时间卷积初始化为部分移位，从而赋予了继承自预训练ImageNet 2D CNN模型的空间特征学习能力。同时，随着模型的优化，时间卷积可以逐步探索出更有效的具有可学习核权值的时间信息聚合策略。最后，该部分移位初始化策略获得了46.0%的top-1精度，大大高于TSM。

实验结果表明，借鉴TSM的经验，设计部分移位初始化策略，利用具有可学习核权的一维时间卷积，可以提高动作识别的性能。因此，该策略被应用于所提出的TEA模块中的每个时间卷积。

B. Training Details

在本节中，我们将详细介绍在不同数据集上训练TEA网络的详细配置。这些代码和相关的实验日志将很快公开。

B.1. Model Initializations

继之前的动作识别工作[44，27，22]之后，我们利用在ImageNet数据集上预先训练的2D CNNs作为我们网络的初始化。注意，建议的多时态聚合（MTA）模块基于Res2Net[10]，其体系结构与标准ResNet[15]不同。因此，我们选择已发布的Res2Net50模型（Res2Net50 26w4s 有链接），在ImageNet上进行预训练来初始化所提出的网络。虽然在[10]中，Res2Net已经被证明是比ResNet更强大的主干网，例如图像分类、图像目标检测等，但它不会给视频动作识别任务带来很多改进。正如我们在正文的消融研究部分（第4.3.1节）所讨论的，时间建模能力是基于视频任务的关键因素，而不是复杂的空间表示。正文表1的实验结果也验证了这一点。随着2D骨干网络的增强，（2+1）D Res2Net的动作识别性能仅比（2+1）D ResNet（46.2%和46.0%）略有提高。

B.2. Hyperparameters

大多数实验设置与TSM[27]和STM[22]相同。对于Kinetics和Something-Something V1 & V2的实验，网络是根据ImageNet预先训练的模型进行微调的。所有批处理规范化层[21]在训练期间启用。分类层（全连接层）的学习速率和权值衰减比其他层高5倍。对于Kinetics，批大小、初始学习率、权重衰减和退出率分别设置为64、0.01、1e-4和0.5；对于Something-Something，这些超参数分别设置为64、0.02、5e-4和0.5。对于这两个数据集，使用随机梯度下降（SGD）对网络进行了50个周期的训练，在30、40和45个周期，学习率降低了10倍。

当在其他小数据集（即HMDB51[25]和UCF101[35]等）的Kinetics模型进行微调时，批次归一化层被冻结，除了TSN[44]之后的第一个。两个数据集的批大小、初始学习、权重衰减和dropout rate设置为64、0.001、5e-4和0.8。分类层的学习速率和权值衰减比其他层高5倍。在10和20个时期，学习率下降了10倍。训练过程在25个时期停止。最后，学习率应与[12]建议的批量大小相匹配。例如，批量学习率从64倍增加到128倍。

C. The Effect of the Transformation Convolutions in the ME Module

在计算ME模块中的特征级运动表示时，我们首先在时间步长t+1处对特征应用信道变换卷积。其原因是运动会引起同一物体在两帧之间的空间位移，直接计算位移特征之间的差异会导致运动表示不匹配。为了解决这个问题，我们在时间步长t+1处添加了一个3×3卷积，试图从上下文中捕获同一对象的匹配区域。根据我们的验证，这项操作使TEA对Something-Something
V1（从48.4%提高到48.9%）有了提高。此外，我们发现在t和t+1时间步上进行转换并没有提高性能，而是引入了更多的操作。

D. Runtime Analysis

我们在表6中显示了TEA和其他方法的精确度和推理次数。所有这些测试都在一个P40 GPU上进行，批大小设置为16。数据加载时间不包括在评估中。与STM法相比，TEA法具有较高的准确度和相似的效率。与TSM16F和I3D相比，TEA8F的效率和效率均优于TSM16F和I3D。2D ResNet baseline（TSN）的运行速度比TEA快近1.8倍。但它的表现远远落后于我们（19.7%对48.9%）。

通过比较，进一步分析了TEA中各成分的有效性。我们可以看到，MTA中的分层阶段导致了0.0062s（变化 t=TEA-ME）的增加，因为需要按顺序处理多个阶段。我增加的时间是0.0033s（变化 t=TEA-MTA）。请注意，对于时间戳为T的输入特性X，不需要在相邻特性之间按时间顺序减去，然后连接T-1差异。我们只需沿时间维对X进行两次切片，就可以分别得到时间1∼T-1和时间2∼T的特征。然后只进行一次减法以获得最终的特征差异。伪码示例如下，这种方法的时间开销仅为0:0002s。

E. The Location of the TEA Block

如正文第4.2节所述，TEA块用于替换从conv2到conv5的ResNet-50主干的所有ResNet块。在这一节中，我们进行了一项消融研究，以探讨在不同位置将TEA块插入ResNet所造成的不同影响。具体地说，我们将所有ResNet块替换为特定阶段（例如conv2）的TEA块，而保留所有其他阶段（例如conv3∼conv5）不变。网络在Something-SomethingV1训练集上学习，并在其验证集上进行测量。在测试过程中，采用了高效的协议（center crop×1 clip），比较结果见表7。

可以看出，一般来说，在后期插入TEA块（即conv4/conv5，47.1%/46.7%）的动作识别性能优于将TEA块插入早期阶段（即conv2/conv3，43.5%/45.3%）。后期的时空特征可以从更大范围内捕捉时间信息，实现有效的时间聚集。因此，后期的TEA块对提高时间建模能力具有更有效和决定性的影响，最终获得更高的动作识别性能。当TEA块插入ResNet主干的各个阶段时，我们的方法的性能进一步提高，达到了最好的效果（48.9%）。

F. The verification for the assumption of ME

为了验证ME的假设，我们在图5中给出了一个可视化示例。

我们可以看到，不同的特征通道捕捉不同的信息。例如，在通道11和25上，功能对移动的游泳者进行建模，ME模块通过给予较大的注意力权重（a=0.90/0.58）来增强这种运动信息。相比之下，在通道14和通道42上，背景信息被简单地保存下来，注意力权重非常低，为0.08/0.05。

G. Experimental Results on SomethingSomething V2

在本节中，我们将提出的TEA网络与SomethingSomethingV2上的其他最新方法进行比较[13]。SomethingV2是Something数据集的更新版本。它包含168913个训练视频、24777个验证视频和27157个视频。它的大小是SomethingSomethingV1（总共108499个视频）的两倍。TEA网络在训练集上学习，在验证集和测试集上进行评估。采用精度推理协议（full resolution×10 clips）进行评估，结果见表8。我们可以看到，在验证集上，我们的结果（65.1%）优于现有最先进的方法。在测试集上，获得的数值也与最新的结果相当（63.2%对63.5%）。这些结果验证了所提出的TEA网络在SomethingSomethingV2上的有效性。

雁飞鸣

关注

3
点赞
踩
39

收藏

觉得还不错? 一键收藏
7
评论
行为识别(CVPR2020南京大学&腾讯) ~ TEA论文笔记 ~《TEA: Temporal Excitation and Aggregation for Action Recognition》

有兴趣的朋友可以加微信：qyf--1314相互讨论技术论文：https://arxiv.org/abs/2004.01398官方代码：https://github.com/Phoenix1327/tea-action-recognition
复制链接

扫一扫