【论文笔记】TAM: Temporal Adaptive Module for Video Recognition

纯牛奶YYDS

于 2023-08-24 19:43:51 发布

阅读量1.3k

点赞数 20

分类专栏：论文笔记文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_44088460/article/details/132480819

版权

论文笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文信息

TAM: Temporal Adaptive Module for Video Recognition
代码地址

目录链接：
总结

针对的问题
使用的方法
实验数据
得到的结果

论文主要内容

摘要
1.介绍
2.相关工作
3.方法
4.实验
5 结论

总结

针对的问题

聚焦点：时序建模，设计一个高效且灵活性强的时序模块

视频理解中的核心技术问题：设计有效的时序模块，期望能够以较高的灵活性捕获复杂的时序结构，同时又能以较低的计算消耗高效地处理高维视频数据

使用的方法

时间自适应模块TAM：通过局部重要性图和全局聚合权重的组合产生视频特定的内核，捕获不同的时间结构用于聚合。

具体方法：在2D ResNet主干网中插入并叠加TAM模块，每个TAM模块由局部分支和全局分支组成。分支前，全局空间平均池化对特征图进行压缩。

局部分支：捕获短期信息，基于局部时间窗口学习重要性图。1维时间卷积-BN（减少通道数）-ReLU非线性激活-1维时间卷积-sigmoid激活，进行注意力操作，产生时间重要性权重-缩放权重为时空权重
全局分支：以通道方式学习自适应核，使用全连接( f c )层F来利用长期信息学习自适应核
时间自适应聚合：局部分支的输出和全局分支用时间卷积聚合

实验数据

数据集

Kinetics-400、Something - Something v1/v2

主干模型

主干网络：ResNet50

实验设置

8帧、16帧来训练，均匀采样，数据增强（多尺度裁剪、随机水平翻转）
Kinetics-400：epoch=100,lr = 0.01, 在50，75，90epoch除以10，使用SGD优化器
SSV1，V2：epoch=50,lr=0.01.在30，40，45epoch除以10.

实验分析

消融实验：参数选择、插入块的位置、插入块的个数、时间感受野的大小
与其他时间模块比较：平均池化、TSM、非局部注意
和最优方法比较：TSN、I3D、TSM、SlowFast（8帧/16帧 224x224，主干网）

得到的结果

局部分支和全局分支有助于从不同视角捕捉时间结构，有助于使时间建模更加有效和鲁棒。

配备TAM的TANet在动作识别上优于现有的时序模块，证实了TAM在时序建模上的有效性。

论文主要内容

摘要

时序建模对于捕获视频中的时空结构进行行为识别至关重要。由于摄像机运动、速度变化和不同活动等多种因素的影响，视频数据在时间维度上具有极其复杂的动态特性。为了有效地捕获这种多样化的运动模式，本文提出了一种新的时间自适应模块( TAM )，根据其自身的特征图来生成视频特定的内核。TAM通过将动态核解耦为位置不敏感的重要性图和位置不变的聚合权重，提出了一种独特的两级自适应建模方案。重要性图在局部时间窗口中学习以捕获短期信息，而聚合权重则从着眼于长期结构的全局视图中生成。TAM是一个原则性的模块，可以集成到2D CNN中，以很小的额外计算成本产生强大的视频架构( TANet )。在Kinetics - 400数据集上的大量实验表明，TAM由于其自适应的建模策略，始终优于其他时序建模方法。在Something - Something数据集上，TANet取得了优于以往先进方法的性能。该代码即将在https://github.com/liu-zhy/TANet.上发布

1.介绍

深度学习为图像领域的各种识别任务带来了巨大的进步，如图像分类[ 17、9 ]、目标检测[ 22 ]、实例分割[ 8 ]等。这些成功的关键是设计灵活高效的架构，能够从大规模图像数据集中学习强大的视觉表示[ 2 ]。然而，深度学习在视频理解方面的研究进展相对缓慢，部分原因是视频数据的复杂度较高。视频理解中的核心技术问题是设计有效的时序模块，期望能够以较高的灵活性捕获复杂的时序结构，同时又能以较低的计算消耗高效地处理高维视频数据。

3D卷积神经网络( 3D Convolutional Neural Networks，3D CNNs ) [ 26、12 ]已经成为视频建模[ 1、4、28、21]的主流架构。3D卷积是其2D卷积的自然扩展，为视频识别提供了一个可学习的算子。然而，这种简单的扩展缺乏对视频数据时间特性的具体考虑，同时也可能导致较高的计算成本。因此，最近的方法旨在从两个不同的方面改进3D CNNs，通过将轻量级时间模块与2D CNNs相结合来提高效率(例如, TSN , TSM )，或设计专用的时间模块来更好地捕获时间关系(例如, Nonlocal Net , ARTNet , STM 等)。然而，如何设计一个高效且灵活性强的时序模块仍然是视频识别中一个尚未解决的问题。因此，我们的目标是沿着这个方向推进现有的视频架构。

在本文中，我们致力于设计一个原则性的自适应模块，以更灵活的方式捕获时间信息。一般来说，由于相机运动和各种速度等因素，我们观察到视频数据在时间维度上具有极其复杂的动力学特性。因此，简单地使用固定数量的视频不变核，3D卷积(时间卷积)可能缺乏足够的表达能力来描述运动多样性。为了处理视频中这种复杂的时间变化，我们认为每个视频的自适应时间核是有效的，并且可能是描述运动模式所必需的。为此，如图1所示，我们提出了一个两级自适应建模方案来将这个视频特定的时间核分解成一个位置敏感的重要性映射和一个位置不变的聚合核。这种独特的设计使得位置敏感的重要性图能够专注于从局部视图中增强判别性的时间信息，并使位置不变的聚合权重能够在输入视频序列的全局视图引导下捕获时间依赖。

图1：时间模块比较：标准的时间卷积在视频之间共享权重，由于视频的多样性，可能缺乏处理视频变化的灵活性。时间注意力通过自适应地为判别性特征赋予高重要性来学习位置敏感权重，可能会忽略长程时间依赖。我们提出的时序自适应模块( TAM )通过学习用于位置自适应增强的局部重要性权重和用于视频自适应聚合的全局重要性权重，提出了两级自适应方案。

具体来说，我们的时间自适应模块( TAM )设计严格遵循两个原则：高效率和强灵活性。为了保证我们的TAM具有较低的计算成本，我们首先通过使用全局空间池化来压缩特征图，然后以通道的方式建立我们的TAM以保持效率。我们的TAM由两个分支组成：局部分支( L )和全局分支( G )。如图2所示，TAM以一种有效的方式实现。局部分支使用时间卷积算子来产生位置敏感的重要性图来关注具有判别性的特征，而全局分支使用时间全连接层来产生位置不变的聚合权重。由局部时间窗口生成的重要性图侧重于短期运动建模，而使用全局视图的聚合权重更加关注长期时间信息。此外，我们的TAM可以灵活地插入到现有的2D CNN中，以产生一个有效的视频识别架构，称为TANet。

图2：TANet的总体架构。将ResNet中的香草ResNet - Block替换为TA - Block来实例化TANet，⊕表示逐元的加法。右下角的时序自适应模块( TAM )的整个工作流程展示了其工作原理。我们在每一步之后都注意到张量的形状，记为元素乘法，并记为卷积算子。图中出现的符号将在第二节中说明。

我们将提出的TANet在视频识别中的动作分类任务上进行了测试。特别地，我们首先研究了TANet在Kinetics - 400数据集上的性能。我们**证明了我们的TAM比其他几个对应的TAM更好地捕获了时间信息，例如时间池化、时间卷积、TSM [ 19 ]和非局部块[ 32 ]。**我们的TANet能够与类似于2D CNN的FLOPs产生非常有竞争力的精度。我们还在运动主导的Something - Something数据集上测试了我们的TANet，在该数据集上取得了最先进的性能。

2.相关工作

视频理解是计算机视觉领域的一个核心课题。在早期，许多传统方法[ 18、16、23、34]设计了各种手工特征来编码视频数据。在这些手工设计的方法中，使用密集轨迹特征的iDT [ 29 ]取得了强大的性能。不幸的是，手工设计的方法在推广到其他视频任务时过于不灵活。近年来，由于视频理解的快速发展在很大程度上得益于深度学习方法[ 17、25、9 ]，特别是在视频识别方面，一系列深度学习方法被提出来专注于学习时空表示，一般分为两类：( 1 ) 2D CNNs方法，( 2 ) 3D CNNs方法。此外，我们的工作还略微提到了CNN中的注意力。

2d Cnns方法进行动作识别。由于深度学习方法在静止图像任务中得到了广泛的应用，基于2D CNNs的[ 14、24、31、36、7、19]也有很多尝试致力于对视频片段进行建模。由于香草二维卷积无法处理时间关系，双流方法[ 24，5]利用光流作为运动特征来学习时间线索。特别地，TSN [ 31 ]使用从整个视频中稀疏采样的帧，通过聚合上一个全连接层后的分数来学习长距离的依赖关系。TSM [ 36 ]以一种有效的方式将通道沿着时间维度移动，这完全基于2D CNNs产生了良好的性能增益。与上述所有方法不同，我们基于2D CNNs的方法尝试使用两级自适应建模方案，通过将视频特定的内核分解为位置敏感的激励和位置不变的聚合。由于提取光流过于昂贵，TANet在实验中只考虑RGB作为输入模态。

3D Cnns动作识别方法。通过从空间域到时空域的简单扩展，提出了3D卷积[ 12、26 ]来捕获视频片段中编码的运动信息。由于大规模Dynamics数据集的发布[ 15 ]，3D CNNs [ 1 ]被广泛应用于动作识别。其变体[ 21、28、35 ]将3D卷积分解为空间2D卷积和时间1D卷积来学习时空特征。ARTNet [ 30 ]和Slow Fast [ 4 ]设计了双路径的网络来学习时空特征。不同于P3D [ 21 ]或R ( 2 + 1 ) D [ 28 ]，我们的视频特定聚合核用于在时间维度上进行逐通道的一维卷积，每个视频片段都有自己独特的核。

注意。TAM中的局部分支主要涉及SENet [ 10 ]。但是SENet对特征图的每个通道学习调制权重，从而在图像识别中进行特征重标定**。STC块[ 3 ]是为了研究动作识别中的时空通道相关性而提出的**。与这些方法不同的是，我们的局部分支挤压了空间特征，但保留了时间信息来学习位置敏感的重要性。非局部网络[ 32 ]是用非局部均值设计的，非局部均值可以被看作是自注意力来捕获长程依赖。我们的TANet通过简单堆叠更多的TAM来捕获长程依赖，并保持骨干网络的效率。

3.方法

该部分首先对时序自适应模块( TAM )进行了详细的描述，然后介绍了TANet进行视频识别的实例。

3 . 1时间适应模块概述

正如我们在第一节中所讨论的，**视频数据通常表现出由摄像机运动和速度变化等因素引起的复杂的时间动态。**因此，与3D CNN中的共享卷积核不同，我们旨在通过引入具有视频特定内核的时间自适应模块( TAM )来解决这个问题。提出的TAM以灵活高效的方式基于视频特征生成动态时间核，从而能够根据运动内容自适应地聚合时间信息。TAM易于集成在现有的2D CNNs (例如, ResNet)中生成视频网络架构，如图2所示。我们将对TAM进行概述，然后描述其技术细节。我们还讨论了我们的TAM与现有工作的关系。

形式上，令X∈RC × T × H × W表示一个特征图，其中C表示通道数，T、H、W为其时空维度。为了提高推理效率，我们的TAM只关注时间建模，而空间模式期望通过2D卷积捕获。因此，我们首先使用全局空间平均池化对特征图进行如下压缩：在这里插入图片描述
其中，c，t，j，i为不同维度的指数(在通道、时间、高度和宽度上)，[ X∈RC × T聚合了X的空间信息。我们提出的时间自适应模块是基于这种压缩的1D时间信号建立的，以实现高效率。

我们的TAM由两个分支组成：局部分支和全局分支，其目的是学习一个位置敏感的重要性图来增强判别性特征，然后产生位置不变的权重以卷积的方式聚合时间信息。更具体地说，TAM公式如下：在这里插入图片描述
式中：⋅表示卷积算子，表示逐元素乘法。G表示一个全局分支，L表示一个局部分支。这两个分支都在压缩特征图( X )上运行，G和L的输出大小分别为K × C和T × C × H × W。值得注意的是，这两个分支专注于时间信息的不同方面，其中局部分支试图通过使用时间卷积操作来捕获短期信息以关注重要特征，而全局分支旨在结合长程时间结构，通过全连接层来引导自适应时间聚合。实验表明，将核学习过程分解为局部分支和全局分支是一种有效的方法。我们将在下面的章节中对这两个分支进行详细的描述。

3.2 TAM中的局部分支

如前所述，本地分支旨在利用短期时间动态来辅助生成视频特定内核。我们观察到这些短期信息沿时间维度变化，需要学习一个位置敏感的重要性图来捕捉局部时间结构。
在这里插入图片描述
更正式地，如图2所示，我们用具有ReLU非线性的时序卷积层序列构建TAM的局部分支如下：

其中V是学习到的重要性映射，C是输入张量的通道数，δ是ReLU函数**。Conv1D是一个时间卷积，它由输入张量、核大小和输出通道数来参数化。由于局部分支的目标是捕获短期信息，因此我们将核大小K设置为3，仅基于局部时间窗口学习重要性图。为了控制模型的复杂度，第一个Conv1D和紧随其后的BN [ 11 ]减少了从C到C β的通道数。然后，具有sigmoid激活的第二个Conv1D产生重要性权重V∈RC × T。为了匹配X的大小，我们通过空间维度上的复制将V重新缩放为( V∈RC × T × H × W )**：

其中c，t，j，i分别是通道、时间、高度和宽度不同维度的指标。最后，时间激励公式如下：

其中Z∈RC × T × H × W是激活特征图，表示逐元的乘法。

3.3 TAM中的全局分支

针对TAM的全局分支，我们重点研究了基于长期时间信息的自适应核生成。它将全局上下文信息融入TAM并学习位置共享权重进行聚合。需要具有全局视图才能产生视频特定的卷积核。

自适应核的学习。在全局分支中，我们选择为每个视频片段生成动态核，并以卷积的方式聚合时间信息。为了简化动态核生成，同时保持较高的效率，我们提出以通道方式学习自适应核。在这个意义上，我们希望我们学习到的自适应核只考虑时间关系建模而不考虑通道相关性。因此，我们的TAM不会改变输入特征的通道数，学习到的自适应核以通道方式卷积输入特征图。更正式地，对于第c个通道，自适应核学习如下：

其中Θ c∈RK为cth通道生成的自适应核(聚合权重)，K为自适应核大小，δ表示ReLU激活函数。与局部分支中的重要性图学习类似，自适应核也是基于压缩特征图( Xc∈RT )进行学习的，而没有考虑空间结构对建模效率的影响。但与局部分支不同的是，我们使用全连接( f c )层F来利用长期信息学习自适应核。与局部分支中的重要性图相辅相成，我们期望学习到的自适应核具有全局感受野，从而能够在全局上下文的指导下聚合时间特征。为了提高全局分支的建模能力，我们将两个f c层叠加，并使用softmax函数对学习到的核进行归一化，以产生一个正的聚合权重。学习到的聚合权重Θ = { Θ1，Θ2，…，ΘC }将以卷积的方式部署，以捕获特征的时间交互。

时间自适应聚合。在介绍了双分支的架构之后，我们准备用学习到的自适应核来描述聚合时序信息。如公式3所示，学习的位置敏感重要性图V用于特征激励，位置共享聚合权重Θ用于时间卷积如下：

其中·表示标量乘法，Y∈RC × T × H × W是时间卷积后的特征图，Z是局部分支的输出。
在这里插入图片描述
总的来说，TAM提出了一个具有独特两步聚合方案的原则性自适应模块，其中局部激励和全局聚合都来源于当前特征图，但重点捕获不同的时间结构用于聚合(即短期和长期的时间结构)。实验表明，TAM是一种有效的时间自适应方案。

3.4 案例：TANet

本文旨在描述如何实例化TANet。时间自适应模块作为一种新颖的时间建模方法，可以赋予现有的2D CNNs对视频片段中不同时间结构的强大建模能力。在实际应用中，TAM只造成了有限的计算开销，但在不同类型的数据集上的性能都有明显的提升。

深度残差网络[ 9 ]被用作骨干来验证TAM的有效性。如图2所示，在第一个Conv2D之后，TAM被嵌入到ResNet - Block中，这很容易将香草ResNet - Block转化为TA - Block。这种方式不会过度改变网络的拓扑结构，并且可以重复使用ResNet - Block的权值。假设我们采样T帧作为输入片段，将f c之后的T帧的分数通过平均池化进行聚合，从而得到片段级别的分数。f c层之前不进行时间降采样。事实上，**我们的方法对TA - Block的数量和插入位置没有太多的约束。**这些问题将在后文讨论。这样的方式充分展现了我们方法的灵活性和高效性。广泛的实验在Sec中进行。4 . 2验证TANet的有效性。

讨论。**我们注意到局部分支的结构类似于SENet [ 10 ]。**第一个明显的区别是我们的局部分支不挤压时间信息。因此，我们使用时间1D卷积作为基本层，而不是使用f c层。双层设计只追求获得更强大的非线性来建模视频中的短期变化。此外，局部分支主要学习时间位置敏感的重要性图，并与全局分支合作学习更具判别性的特征。

**TSN [ 31 ]，TSM [ 19 ]等仅以固定的方案聚合时间特征，但我们的时间自适应模块可以产生视频特定的权重，在早期阶段自适应地聚合时间特征。**当涉及到3D卷积时[ 26 ]，所有的输入样本共享同一个卷积核，而没有处理视频中的时间多样性。此外，我们的全局分支实质上执行了一个通道时间卷积，其滤波器大小为1 × k × 1 × 1，而普通3D卷积中的每个滤波器大小为C × k × k × k，其中C为通道数，k为感受野。因此，我们的方法比3D CNN更有效。

4.实验

在这一部分中，我们将详细研究TANet在标准数据集上的有效性。首先，我们描述了我们的TANet的实现细节。然后，对Kinetics - 400进行了全面的烧蚀研究，以研究其最佳设置。之后，我们将我们的TAM与我们的时序建模方法进行了比较。最后，我们在Kinetics - 400和Sth - Sth V1 & V2上与之前的先进方法进行了比较。我们还提供了学习到的内核的可视化，以提供对TANet的一些见解。

4.1 实施细节

数据集。我们的实验在三个大规模数据集Kinetics - 400 [ 15 ]和Something - Something ( Sth-Sth ) V1 & V2 [ 6 ]上进行。Kinetics - 400包含了400个人体动作类别的300k视频片段。Kinetics - 400中的视频是从原始YouTube视频中裁剪出来的，时长在10s左右。本文在训练集( 240k视频片段)上训练模型，在验证集(剪辑20k的视频片段)上测试模型。**Sth - Sth数据集关注于细粒度的动作，包含一系列预先定义的与日常对象交互的基本动作。**Sth-Sth V1包括训练集中的86k个视频片段和验证集中的12k个视频片段。Sth-Sth V2是Sth - Sth V1的升级版，训练集中包含的视频短片数量为0.169 k，验证集中包含的视频短片数量为0.25 k。两者都有174个动作类别。

培训。在我们的实验中，我们只使用了8帧和16帧来训练模型。在Kinetics - 400上，按照文献[ 32 ]的做法，从视频中连续的64帧中采样帧。在Sth - Sth V1 & V2上，我们采用TSN [ 31 ]中的均匀采样策略来训练TANet。我们首先将帧的较短边缩放到256，并应用多尺度裁剪和随机水平翻转作为数据增强。裁剪后的帧大小调整为224 × 224，用于训练网络。批次大小设置为64。我们的模型通过ImageNet预训练的权重进行初始化，以减少训练时间。具体来说，在Kinetics - 400上，训练的历元为100。初始学习率设置为0.01，在50、75、90个历元时除以10。我们使用动量为0.9，权重衰减为1e - 4的SGD来训练TANet。**在Sth - Sth V1和V2上，我们训练了50个历元的模型。学习率从0.01开始，在30、40、45个历元除以10。**我们使用0.9的动量和1e - 3的权重衰减来解决过拟合。

测试。我们使用不同的推断方案，以便与其他最先进的模型进行公平比较。在Kinetic - 400上，将较短边缩放到256，并取3个256 × 256的作物覆盖空间维度。在时间维度上，我们对8帧模型均匀采样10个片段，对16帧模型均匀采样4个片段。最终的视频级预测是通过对所有时空视图的得分进行平均得到的。在Sth - Sth V1中，我们将帧的较短边缩放到256，并使用224 × 224的中心裁剪进行评估。在Sth - Sth V2上，我们采用了与Kinetics相似的评估方案，但只对2个片段进行了均匀采样。

4.2 Kinetics - 400的消融研究

在Kinetics - 400上进行消融研究，以研究TANet的不同方面。我们采用的Res Net架构与原架构相同[ 9 ]。我们的TANet默认将所有的ResNet - Block替换为TA - Block。

参数选择。我们使用α和β的不同组合来计算我们提出的模块中的最优超参数。如图2所示，TANet被实例化。我们的方法在α = 2和β = 4时取得了最高的性能，如表1a所示，这将在接下来的实验中应用。
Kinetics - 400烧蚀研究。所有模型均以ResNet50网络为骨干。
插入位置。表1b试图将TAM插入不同的位置。TANet - a、TANet - b、TANet - c和TANet - d分别表示第1次卷积前、第1次卷积后、第2次卷积后和最后一次卷积后分块插入TAM。图2中的样式实际上是TANet - b，与表1b所示的其他样式相比略占优势。在接下来的章节中，TANet - b默认简写为TANet。

TA - Blocks的个数。为了在性能和效率之间进行权衡，我们逐渐在ResNet中加入更多的TA - Block。如表1c所示，我们发现当网络中加入超过9个TABlock时，性能接近饱和。res2 - 5达到了最高的性能，并将用于后续的实验。

时间感受野。我们还尝试在全局分支中增加学习核Θ的时间感受野。从表1d中可以看出，当TANet采用更多的采样帧作为输入时，较大的K值有利于提高性能。另一方面，当采样8帧时，它甚至会退化TANet的性能。在接下来的实验中，为了方便起见，我们将K设置为3。

4 . 3与其他时间模块的比较

为了理解我们的TAM在动作识别中的效果，我们打算描述几个竞争性的时间模块来与TANet进行比较。上述研究的最优构型将在后续实验中得到应用。其他方法的训练设置与TANet保持一致。

2d Convnet ( C2D )。我们使用ResNet50网络作为骨干来构建2D ConvNet。2D ConvNet侧重于空间线索的学习，在最后一个f c层之前独立地对每一帧进行操作，没有任何时间上的交互。

2D ConvNet with Temporal Pooing ( C2D-Pool )。为了探究时间融合的影响，**C2D - Pool利用平均池化层进行时间融合，平均池化层的内核大小为K × 1 × 1，可以很容易地将TANet中的所有时间自适应模块替换为平均池化层。**这种朴素的方法可以扩展C2D，使其具有简单地聚合时间信息的能力。由于C2D - Pool对帧的顺序不敏感，无法处理复杂的时间关系。另一种基于2D ConvNet的方法称为TSM [ 19 ]，它通过时间维度人为地移动部分通道来学习时间关系，而不会带来额外的成本。

膨胀3D Convnet ( I3D )。I3D [ 1 ]是动作识别中最常用的模型。在我们的实现中，我们将ResNet - Block中的第一个1 × 1内核膨胀为3 × 1 × 1，这可以提供与我们的TANet更公平的比较。根据[ 32 ]，我们用I3D3 × 1 × 1来表示这个变体。

上述方法有一个共同的见解：用固定和通用的方案对视频片段进行建模。然而，如表2所示，我们的方法取得了优于C2D的5.9 %的准确率，甚至高于I3D3 × 1 × 1 ( 76.1 %比74.3 %)，这表明固定的视频建模方案可能不足以学习时间线索。更重要的是，我们的TANet只带来了一小部分的FLOPs和参数。

非局部C2D ( Non-Local C2D，NL C2D )。非局部块可以看作一种自注意力，被提出来捕捉视频中的长程依赖关系。我们的方法使用了一种时间自适应方案，以有效地捕获时间依赖关系。采用文献[ 32 ]中提到的5个非局部块的最佳设置与TANet进行比较。如表2所示，我们的方法取得了比NL C2D ( 76.1 % vs.74.4 %)更高的准确率。此外，TANet比I3D3 × 1 × 1和NL C2D更高效。TANet仅有43G的单视图FLOPs和25.6 M的参数。
表2：TAM的有效性研究。所有模型均以ResNet50网络为骨干，以采样步长为8的8帧作为输入。为了与测试保持一致，FLOPs的计算空间大小为256 × 256
为了验证Sec3.1中提到的我们模块的每个部分的有效性。3 . 1节，我们提出了TANet的三种变体。仅由全局时间信息引导的全局分支对特征图进行自适应融合，而不用求助于局部时间激励。局部分支利用局部时间信息辅助C2D学习更具判别性的特征。全局分支+ SE使用SE模块替换TANet中的局部分支。SE模块采用文献[ 10 ]中提到的最优配置。在这些基线中，TANet也取得了最高的性能，这有力地证明了具有局部时间感受野的局部分支更有利于我们的自适应方案。

4.4与State of the Art的比较

Kinetics - 400比较。表3展示了Kinetics - 400的最新结果。我们的方法作为一种自适应的建模方案，取得了与其他模型相当的性能。采用8帧的TANet - 50也比Slow Fast [ 4 ]在每个视图使用相似的FLOPs时提高了0.5 %。16帧的TANet仅使用4个片段和3种作物进行评估，因此具有更高的推理效率。值得注意的是，我们的16帧TANet - 50仍然比32帧NL I3D精度提高了2.2 %。此外，我们的方法与现有的Slow Fast等视频框架兼容。具体来说，TANet可以很容易地替换SlowFast中的Slow路径。当以相同帧数作为输入时，我们的TANet比SlowOnly更轻量，但获得了更高的准确率。总的来说，本文提出的TANet在自适应地建模视频中的时间关系方面做出了很好的实践。
表3为在Dynamics - 400上与现有方法的比较。如文献[ 4 ]所述，GFLOPs (单一的观点) ×视图数(带有空间作物的时间片段)被用来表示模型的复杂度。为了与测试保持一致，FLOPs的计算空间大小为256 × 256
Sth-Sth V1 & V2比较。如表4所示，我们的方法在Sth - Sth V1上与其他模型相比达到了最先进的精度。为空气比较，表4仅报告了以中心作物为输入的单个片段的结果。TANetEn高于搭载相同骨干( Top-1 : 50.6 % vs . Top-1 : 49.7 %)的TSMEn。我们还在Sth - Sth V2上进行了实验。V2比V1具有更多的视频片段，这可以进一步释放TANet的全部能力，而不会产生过拟合。遵循[ 19 ]的通用做法，TANets使用2个片段和3个作物来评估准确性。如表5所示，我们的模型在Sth - Sth V2上取得了目前最好的性能。因此，与当前的SOTA结果相比，TANetEn获得了更高的精度( Top-1 : 65.5 %)。在Sth - Sth数据集上的实验表明，我们的方法也能够很好地对细粒度和时间相关的动作进行建模。
表4：与最新方法在Sth - Sth V1上的比较。表中列出了仅以RGB帧作为输入的模型。为了与实验一致，我们使用224 × 224的空间尺寸来计算FLOP；表5：与Sota on Sth-Sth V2的比较

4.5 学习核的可视化

为了理解TANet的行为，我们可视化了第4阶段和第5阶段最后一个块中全局分支生成的核Θ的分布。为了清晰对比，将相同阶段的I3D3 × 1 × 1中的核权重也进行了可视化，以发现更多的洞见。如图3所示，我们发现学习到的核Θ有一个显著特征：分布的形状和尺度比I3D3 × 1 × 1更多样化。由于I3D3 × 1 × 1中所有视频片段共享相同的核，导致核权重过度聚集在一起。相反，即使在不同的视频中对相同的动作进行建模，TAM也可以生成分布略有不同的内核。以驾驶汽车为例，图3所示的分布形状相似，但分布的中位数并不相等。对于不同的行为，如饮用啤酒和跳伞，分布的形状和中位数有很大的不同。即使是同一动作在不同的视频中也会有不同的表现形式。考虑到不同视频中的运动模式可能具有不同的内在本质，因此在对视频序列进行建模时，需要采用自适应的方案。

**图3：**我们在Kinetics - 400上可视化了核权重训练的统计量，它绘制了在不同时间偏移量( t∈{ - 1,0,1 })下的分布。小提琴图中的每个填充区域代表了整个数据范围，其中注明了最小值，中值和最大值。左图中的前四列是TANet中学习到的核的分布。在第5列中，我们还将I3D3 × 1 × 1中3 × 1 × 1核的滤波器可视化，以与TANet进行比较。阶段4 6b表示核来自阶段4中的第6个块

5 结论

在本文中，我们提出了一种新颖的时间自适应模块( TAM )来捕获视频中的复杂运动信息，并构建了一个强大的视频架构( TANet )。我们的TAM能够通过局部重要性图和全局聚合权重的组合产生视频特定的内核。TAM中设计的局部分支和全局分支有助于从不同视角捕捉时间结构，有助于使时间建模更加有效和鲁棒。在Dynamics - 400上的实验表明，配备TAM的TANet在动作识别上优于现有的时序模块，证实了我们的TAM在时序建模上的有效性。TANet在Sth - Sth V1 & V2的运动主导数据集上也取得了最先进的性能。

纯牛奶YYDS

关注

20
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】TAM: Temporal Adaptive Module for Video Recognition

正如我们在第一节中所讨论的，**视频数据通常表现出由摄像机运动和速度变化等因素引起的复杂的时间动态。**因此，与3D CNN中的共享卷积核不同，我们旨在通过引入具有视频特定内核的时间自适应模块( TAM )来解决这个问题。提出的TAM以灵活高效的方式基于视频特征生成动态时间核，从而能够根据运动内容自适应地聚合时间信息。TAM易于集成在现有的2D CNNs (例如, ResNet)中生成视频网络架构，如图2所示。我们将对TAM进行概述，然后描述其技术细节。我们还讨论了我们的TAM与现有工作的关系。
复制链接

扫一扫