时序动作检测/定位(Temporal Action Detection)(Temporal Action Localization)-约40篇论文阅读笔记

4.4 BMN

代码
 论文
经典算法

4.5 Temporal Action Proposal Generation with Background Constraint

5 Actionformer(2022)(本实验聚焦1)

代码（有pretrained_model）
论文
第一个Transformer-based的检测，single-stage anchor-free
使用warmup的介绍
 余弦退火
将局部自注意适应于未剪辑视频中的时间上下文模型，对输入视频中的每一时刻进行分类，并回归其相应的动作边界。
该模型使用标准分类和回归损失进行训练，可以在单帧中定位动作瞬间，而无需使用action proposals或预定义的锚定窗口（anchor windows)。
通过pretrained on Kinetics的two-stream I3D来提取视频特征
本实验使用linear warmup+余弦退火
报告部分

介绍I3D
介绍整体框架和该模型的贡献
tIoU的分析（定量）
可视化结果的分析（定性）
总结模型优缺点

6 AFSD(2021)(本实验聚焦2)

代码
 论文
 介绍
端到端（使用frame，而不是feature）、第一个anchor-free的检测
基于学习显著性边界特征的无锚框时序动作检测
提出一个基于显著性的细化模块，通过新的boundary pooling为每个proposal收集更多有价值的边界特征
提出几个一致性约束，确保模型可以找到给定任意proposal的精确边界
分为粗略预测和最终的微调
inference速度特别快
报告部分

介绍整体框架和该模型的贡献
tIoU的分析（定量）
可视化结果的分析（定性）
总结模型优缺点
简略介绍基于flow和基于frame的差异，解释为什么要融合这两者
（见那3页的附录supplements）

7 TALLFormer(2022)

代码
 论文

主要解决大型transformer encoder占用大量显存的问题
端到端
节省GPU显存
同时具有高空间分辨率和长时间范围的端到端训练
TALLFormer仅使用RGB帧。使用双流网络是很消耗资源的，因为（i）光流提取速度慢，（ii）使用额外backbone处理光流输入的成本大约是单流RGB方法的两倍。
与ActivityNet上的大多数方法不同，TALLFormer不需要单独的动作识别分类器。

Mixed Precision介绍，多卡运算介绍，Gradient CheckPointing显存优化
实现细节：

7.1 Short-term Transformer Encoder

1. 随机抽取固定数量的视频片段，并将其输入编码器。
2. 注意，在每次训练迭代期间，Transformer编码器仅处理整个输入视频中的一小部分片段。其余片段从long memory module模块中采样。
3. 此模块有三个优点：（i） 不需要降低空间视频分辨率；（ii）不需要冻结模型backbone；（iii）不需要使用weak short-term feature extraction backbone。  
4. 使用最新提出的VideoSwin来作为Transformer Encoder。

7.2 Long Memory Module

提出Long Memory Module(LMM)来缓存short-term Transformer编码器为所有短期视频片段计算的特征。
此模块有三个优点：（i）使用功能强大的基于transformer的特征提取器，而不冻结其backbone或
降低空间视频分辨率；（ii）仍然保持精确定位长距离动作的时间边界的能力。
注意，在推理过程中，使用short-term transformer encoder提取所有特征，不使用LMM。

7.3 Temporal Consistency Module

由于Short-term Transformer Encoder与Long Memory Module之间的特征分布不同，因此需要减少clip-level级别的时间不一致性。
TransformerLayer使用relative positional encoding(与Swin类似)，GELU激活函数，Droppath(将深度学习模型中的多分支结构随机删除)。

7.4 Temporal Boundary Localization Module

使用与AFSD类似的检测头

TALLFormer可以将任何基于transformer的模型当作TALLFomer的short-term特征提取器。

实验中解释了为什么以前的大多数方法都需要外部动作识别分类器。（因为使用I3D比Swin的分类acc低了约20%）

8 DaoTAD(2021)

代码
 论文

本中认为光流帧在高精度时间动作检测中是可有可无的，图像级数据增强(image level data augmentation)(ILDA)是避免去除光流时性能下降的关键解决方案。具体来说，不仅使用时间级数据增强，而且在DaoTAD中应用了四种广泛使用的图像级数据增强，例如随机裁剪、photo distortion(光畸变)、随机旋转和随机翻转。
基于RGB帧的单阶段端到端TAL模型。

在本文中，我们使用在Kinetics上预训练的ResNet-50 I3D模型作为基本特征提取网络。

实现细节：

8.1 Feature Extractor

ResNet50 I3D。

8.2 Spatial Reduction Module(SRM)

有三种不同的Spatial Reduction模式:maximum pooling , average pooling, and convolution。本文中选用average pooling。

8.3 Temporal Downsample Module

使用时序维度上的1D Conv实现。

8.4 Temporal Feature Pyramid Network

TFPN旨在通过自顶向下的途径将语义强的低时间分辨率特征与语义弱的高时间分辨率特征相结合。

8.5 Temporal Prediction Module

分类分支由4个堆叠的Conv1D层组成，内核大小为3，步长为1，然后是分类输出Conv1D层。
除了输出层的输出通道外，回归分支几乎与分类分支相同。

8.6 Anchor

使用translation-invariant(平移不变量) anchors。

8.7 Loss

Classification Loss。Focal Loss，可以解决检测问题中正负例不均衡的问题。
Regression Loss。Temporal DIoU，不仅考虑了tIoU，还考虑了两段中心点之间的归一化距离，这种loss可以更好更快地收敛。如下图：

推理速度特别快，在2080ti上约6668fps，原因：（i）模型是一个单阶段检测器，因此消除了额外的前置生成阶段。（2）模型基于单RGB流，因此避免了耗时的双流架构和光流提取。

random crop对mAP提升很重要

9 RCL(2022)

暂时无代码

Recurrent Continuous Localization(RCL)，对anchor的连续表示优于离散表示，是一个即插即用，可以结合到其他网络的单阶段模型。所提出的anchor的连续表示可以直观地理解为学习到的的位置条件分类器，其置信度分数由视频特征和时间坐标共同确定。

贡献：

提出了一种连续锚点表示。该方法将现有的基于anchor的检测器统一并扩展为二维坐标系下的连续回归问题。
为了优化连续表示，开发了一种有效的比例不变(scale-invariant)采样策略，为short-term 视频段提供准确的排序得分。
通过迭代优化方法，我们的模型自适应地聚焦于目标区域，并提供精确的估计。

RCL可以归结为三个阶段：（1）视频特征提取;（2）计算连续2D置信图;（3）迭代更新，其中所有阶段都是可微的，并组成一个端到端的可训练架构。

实现细节：

9.1 Video Feature Extraction

使用三维卷积网络从未修剪的视频帧中离线提取视频特征

9.2 Continuous Anchoring Representation

在这里插入图片描述

The bottom-up methods。如：BSN采用级联范式，首先确定起始和结束位置，然后通过边界敏感模块来组合视频段。BMN直接计算所有候选对象，并通过矩阵乘法加速SoI，形成端到端的训练方案。
The multi-scale anchor methods。理论上，通过偏移回归学习可以无损恢复GT视频段。anchor的设计本身是一种离散化表示，这将导致样本不平衡问题，并使其灵活性降低。
The anchor-free methods。通过中心点特征直接预测置信度分数、中心偏移量和时间长度。
The continuous representation。与3.的最大不同是，对于给定的段，连续函数可以输出该段的置信度分数和到最近标签的相对偏移。（结合了锚点，而3.是直接得到结果，4是尽量向锚点靠）

9.3 Sampling Strategy and Feature Alignment

在这里插入图片描述

The continuous representation有两个问题：（1）连续表示函数包含无限个样本，穷举采样在计算上是禁止的。常见的解决方案是在每个训练批中随机收集一些点，以优化整体函数。（2）对于每个GT段 $g_s,g_e)$ ，可以将其映射到2D轴上的一个点。先前的研究表明，不同尺度的训练样本不平衡，损失项将被长的segment淹没。
连续的anchor可以在整个实数域上采样，这确保我们可以轻松控制不同长度实例的比率。

9.4 Recurrent Refine Module

类似于RNN，不断迭代更新8.3中的采样函数F

9.5 Supervision

tIoU分数实际上是一个无符号距离。当每个训练样本独立优化时，网络无法感知准确的目标位置，这导致收敛缓慢。因此考虑正负号，引入新的loss

实验使用相同的离线提取到的two-stream features。

10 DCAN(2022)

bottom-up的proposal提出方法。

当前基于边界匹配的方法是通过枚举并计算所有可能的边界匹配以生成propsal的。然而，这些方法忽略了约束预测中的长期上下文聚合。

本文提出了名为双上下文聚合网络(Dual Context Aggregation Network)(DCAN)的端到端proposal生成方法，将上下文聚合到两个级别，即边界级和proposal级，以生成高质量的动作proposal，从而提高TAL的性能。其中，dual指的是 boundary-level 和 proposal-level。

生成proposal地两种方式：

"自上而下"方法：通过使用预定义缩放重新填充锚或滑动窗口的边界并计算置信度来获得最终proposal。首先，boundary-level上，不同的动作以不同的速度变化。慢动作的边界通常不是一个明确的时间位置，而是一个过渡间隔。因此，如果没有有效的局部时间上下文聚合，就没有足够的语义信息来精确预测这些边界。另一方面，一些动作的开始和结束边界非常相似，因此在这些位置的高置信度额开始和结束将产生许多无效匹配，而无法进行远程时序上下文聚合。其次，在proposal-level上，简单地在匹配映射上执行上下文聚合是不合适的。聚集具有不同时间尺度和语义密度的邻接匹配将损坏匹配的内部语义表示。此外，相邻匹配高度重叠，因此它们的语义信息过于相似，聚合后无法获得足够的语义补充。因此，有必要在boundary-level 和 proposal-level设计有效的上下文聚合方法。
"自底向上"方法：通过计算每个位置的边界置信度并将开始位置与结束位置进行匹配来生成proposal。

与BMN(Lin等人，2019)类似，DCAN具有时间评估分支和匹配评估分支。

对于时间评估分支，设计多径时间上下文聚合(Multi-Path Temporal Context Aggregation)(MTCA)，以在边界级别实现有效且平滑的上下文聚合。MTCA是由Multi-Path Temporal Convolutions (MPTC)堆叠而成的，在每个MPTC中，都有一条配有可形变卷积的长程路径，用于扩展感受野并实现长程上下文聚合，还有一条配有规则卷积的短程路径，用于聚合短程上下文。为了减轻可形变卷积的网格伪影，我们对MPTC采用锯齿波式启发式安排，以确保每个位置的上下文可以平滑聚合。MTCA逐渐将感受野从帧扩展到整个视频，从而有效地聚合长程和短程上下文。
对于匹配评估分支，我们提出了从粗到精的匹配(Coarse-to-fine Matching)CFM)，用于在proposal-level上进行有效的上下文聚合。CFM首先使用组采样策略生成粗匹配映射，然后通过细化网络从粗到细逐步细化映射。粗映射确保了稀疏匹配之间语义信息的区别，同时在不破坏语义表示的情况下聚合了相邻匹配的上下文。在从粗到精的过程中，匹配之间的关系逐渐得到补充和恢复。CFM增强了匹配上下文的表达性和鲁棒性，最终的匹配图包含了匹配之间的关系。

贡献：

在boundary-level，我们提出了多径时序上下文聚合(MTCA)来聚合边界上下问，并缓解了可形变卷积的网格伪影。
在proposal-level，我们设计了从粗到精的匹配(CFM)，以从粗到精生成和细化匹配map，从而增强了匹配上下文的表现力和鲁棒性。

input为双流。

proposal生成。

基于预定义的滑动窗口或锚点生成proposal，并训练分类器以过滤锚点。
TURN（Gao等人，2017年）利用滑动窗口，通过连接proposal的边界上下文和内部上下文来重新细化边界。
RapNet（Gao等人，2020年）提出了一个关系感知模块，用于捕捉帧之间的远程上下文。
RTD Net（Tan等人，2021）利用transformer解码器直接生成稀疏提议集，有效地省略了后处理步骤。尽管许多基于锚的方法使用多尺度锚来增加多样性，但生成的建议仍然不够灵活，无法覆盖不同时间尺度的动作。
（Lin等人，2018、2019；Su等人，2021）使用一种称为边界匹配的灵活方法。他们预测每个帧的开始和结束置信度，然后匹配具有高开始和结束置信度的帧以生成建议并评估其置信度。由于缺乏锚的先验知识，这些方法更难优化。

时序动作检测中的时序建模。时序建模在TAL中起着重要作用。

1.（Escorcia等人，2016；Yeung等人，2016）使用LSTM生成行动建议。

与LSTM相比，在建模动作的长期时间结构时，时间维度上的一维卷积显示出更好的性能。
（Lea等人，2017；Gong，Zheng和Mu 2020）和（Su等人，2021）分别利用时间卷积和UNet进行时间关系建模。
（Qing等人，2021）通过两种类型的自注意模块聚合局部和全局时间语境。我们使用堆叠多径时间卷积来捕捉帧的长期和短期依赖性。

10.1 Base Network

根据最近的proposal生成方法（Lin等人2018、2019），使用具有固定gap的滑动窗口的动作识别主干网络提取的时间特征作为输入。

10.2 Multi-Path Temporal Context Aggregation

多径时间上下文聚合（MTCA）能有效地聚合长程和短程时间上下文，用于后续对propsal的提出。
有两种形态的网络。（i）第一种称为MPTC-E，是一种形变系数为 $2^k$ 的MPTC，用于快速扩展感受野，其中k是调整感受野扩展规模的指数，并随着网络深度的增加而增加。（ii）第二种称为MPTC-S，是一种具有固定 $r_{smooth}$ 膨胀的MPTC，用于缓解网格伪影。
不使用self-attention的原因：自注意力机制不适合边界评估。自注意力机制更关注位置之间的相关性，但忽略了顺序和距离。对于边界评估，边界周围的上下文聚合比远距离聚合更有价值。我们希望位置可以专注于聚合它所属的动作实例的信息，同时还考虑远程上下文的聚合，而不是整个视频位置的统一聚合。因此，MTCA比自注意力机制更有利于长程和短程语境聚合。

10.3 Coarse-to-fine Matching

粗到精匹配（CFM）旨在通过构造粗匹配映射并将映射从粗到精细化来实现proposal-level上下文聚合。由于匹配图中的相邻匹配具有相似的采样间隔和采样点，导致语义缺乏区分性和丰富性。这种相邻匹配的上下文聚合无法获得有效的语义补充。同时，在匹配图上聚集具有不同时间尺度和不同语义密度的相邻匹配将损坏每个匹配内的语义表示。因此，我们提出了group抽样策略来构建group map。
精匹配过程有两个步骤。首先，我们采用反卷积对 $M_g^′$ 进行上采样，每个反卷积层在时序和duration维度上以因子2对map进行上采样，最后将每个group特征细化为G×G匹配特征。然后，采用kernel大小为3的卷积来重建相邻匹配的关系。在细化网络逐渐将组特征细化为匹配特征的同时，它还恢复了匹配之间的关系，并实现了匹配之间上下文的隐式聚合。
最终卷积运算与BMN相同（Lin等人，2019年），但其效果不同。匹配特征是从group特征中提炼出来的。group特征的构造削弱了内部时间尺度表示，因此可以认为不同时间尺度匹配的内部时间语义表示是同质的。对这些特征进行卷积具有更平滑的上下文聚集效果，可以更好地捕捉匹配之间的内部关系，因此其效果优于BMN的PEM。

11 LoFi(2021)

代码(还未上线)

大多数现有的TAL方法依赖于迁移学习，首先在大型动作分类数据集（即源域）上优化视频编码器，然后冻结编码器并在动作定位数据集（即目标域）上训练TAL头部。这导致了视频编码器的任务差异问题，即：该编码器经过动作分类训练，但用于TAL。在本文中，我们通过引入一种新的低保真（LoFi）视频编码器优化方法来解决这一挑战。

在TAL模型的标准优化中，通常涉及两阶段迁移学习pipeline：

首先，在大型源视频分类数据集上优化视频编码器，并且可选地在动作分类监督下在目标数据集的裁剪分段版本上微调；
其次，在TAL任务监督下，冻结视频编码器，并在TAL数据集上优化TAL头。

贡献：

我们研究了TAL模型的标准优化方法的局限性，并认为任务差异问题阻碍了现有TAL模型的性能。尽管视频编码器优化是一个重要的组成部分，但现有的TAL方法在很大程度上忽略了它，没有进行系统的研究。
为了改进TAL模型的训练，我们提出了一种新颖、简单、有效的低保真（LoFi）视频编码器优化方法。它专门用于解决TAL模型的视频编码器的任务差异问题。
大量实验表明，当与现成的TAL模型(如G-TAD)结合时，所提出的LoFi优化方法产生了新的最先进的性能。关键的是，我们的方法实现了卓越的效率/准确性权衡，具有明显的推理成本优势，并且对不同容量的视频编码器具有良好的通用性。

LoFi概述。模型训练涉及三个阶段：

在辅助视频数据集(例如Kinetics)上的动作分类任务监督下对视频编码器进行预训练。
在低保真度（训练视频的空间、时间或时空分辨率中的低小批量配置）情况下，在TAL任务中对目标数据集的监督下优化视频编码器和TAL头；这是本文介绍的在不增加内存开销的情况下解决任务差异问题的关键阶段。目标损失函数来自GT和模型预测值。为此，我们建议在输入的空间和时间分辨率方面减少小批量配置，否则端到端优化无法满足硬件约束。关键是，通过对目标任务和目标数据集的训练，可以缩小任务差异差距。
在TAL任务对目标数据集的监督下，在全保真度配置中训练TAL头。最后，我们冻结已经端到端优化的视频编码器，并在完全时空分辨率的目标数据集上从头开始训练选择的TAL头。注意，在此设置中，我们无法对最终TAL模型执行端到端优化，这受到硬件内存约束的限制

具体实现部分：

11.1 Low-Fidelity Training Configurations

有4种配置，分别是：

Spatial Low-Fidelity (S-LoFi)。使用较小的空间特征图；
Temporal Low-Fidelity (T-LoFi)。这对应于TAL头将较少数量的片段作为输入，最后在每个时间位置的候选对象保持不变的情况下输出较少的预测。
Spatio-Temporal Low-Fidelity (ST-LoFi)。在第三种配置中，我们同时应用（通常更小）时间和空间分辨率的降低。
Cyclic Low-Fidelity (C-LoFi)。上述三种LoFi配置中的每一种都单独使用。为了进一步探索它们的互补优势，我们建议以结构化的方式应用所有这些优势。为此，我们从最近提出的多网格训练策略中得到启发，该策略最初是为了加快动作识别训练。具体来说，我们使用三种LoFi配置形成一个采样网格，并在其中重复循环。我们整合了短周期和长周期策略。特别是，长周期在一个epoch开始时改变 $r_t$ 和 $r_s$ 的值，并在 $c_l$ epoch后通过构型1到3循环。相反，短周期也会在配置I到III之间循环，但在 $c_s$ 批次后才会改变 $r_t$ 和 $r_s$ 。重要的是要注意与原始多网格训练的一些实际差异。首先，与原始的多重网格方法相反，我们在时间和空间维度之间转移输入分辨率的降低，以便每视频内存使用保持（近似）恒定。因此，批量大小也始终保持不变，从而简化了训练。其次，在视频编码器训练期间，任何时候都不使用全分辨率设置（即全保真度，因为存储空间不够）。默认情况下，我们使用C-LoFi配置和长周期策略（Long C-LoFi）。

11.2 An Instantiation of LoFi

使用现成的TAL模型：在不丧失通用性的情况下，在本研究中，我们采用G-TAD，一种最先进的时序分类方法，作为我们的TAL模块。
我们使用基于ResNet的TSM作为视频编码器，因为与基于3D ConV的替代方案相比，它具有良好的精度成本权衡和合理的内存需求。

我们的方法只使用RGB帧，避免了计算光流和运行第二个forward过程所产生的过多成本。

在这项工作中，我们提出了一种简单有效的低保真（LoFi）视频编码器优化方法，以实现更有效的TAL模型。这是因为观察到，在现有的TAL方法中，视频编码器仅通过短视频片段上的动作分类监控进行预训练，缺乏所需的在目标数据集上的TAL的优化。实际上，联合优化本身并不新颖。然而，这对于训练TAL模型来说是非常重要的，因为每视频大小较大，很容易超出GPU内存，使其在实践中不可行。为了克服这一障碍，我们建议在训练视频的时间和/或空间维度上减少小批量构造配置，以便在相同的内存条件下实现端到端优化。大量实验表明，我们的方法可以明显改善现有现成TAL模型的性能，即使仅以RGB模式作为输入，并在两个代表性TAL基准上使用更轻量级的基于主干的单流视频编码器，也能产生最先进的新性能。

12 RTD-Net(2021)

现有的proposal生成方法通常基于预定义的锚或启发式自底向上边界匹配策略。本文提出了一种简单有效的端到端的直接动作proposal生成框架(RTD-Net)，设计了类似于transformer的架构。

为了解决时间和空间之间的本质上的视觉差异，我们对原始transformer Detection framework（DETR）进行了三项重要改进。

首先，为了处理视频中的慢动作，我们用边界注意模块（boundary attentive module）取代了原有的Transformer 编码器，以更好地捕获长程时间信息。
其次，由于时间边界模糊且标注相对稀疏，我们提出了一种松弛的匹配方案（relaxed matching scheme），以减轻对每个GT进行单一赋值的严格标准。
最后，我们设计了一个三分支头，通过准确预测生成的proposal的完整性来进一步改进proposal置信度估计。

由于其设计简单，我们的框架比以前的提议生成方法更有效，且没有非最大抑制(NMS)后处理。

TAL的proposal生成任务中有两种主流方法。

第一种类型是基于锚的方法，该方法基于密集和多尺度盒放置生成动作预测。由于动作实例的持续时间从秒到分钟不等，在合理的计算消耗下，这些基于锚的方法几乎不可能覆盖所有这些地面实况实例。
第二种是基于边界的方法，该方法首先预测所有帧的边界置信度，然后采用自底向上的分组策略来匹配开始和结束对。这些方法在局部窗口提取边界信息，并简单地利用局部上下文进行建模。因此，这些基于边界的方法可能对噪声敏感，并且无法产生稳健的检测结果，因为它们很容易产生不完整的proposal。
此外，这两种方法的性能在很大程度上取决于精心设计的锚点放置或复杂的边界匹配机制，这些机制是利用人类先验知识手工制作的，需要进行特定调整。

我们观察到，视频中的较慢动作的特征和时间边界模糊是两个关键问题，在使用Transformers构建直接动作proposal生成方法时需要特别考虑。

首先，虽然在时间维度上有许多帧，但它们的特征变化速度非常慢。在Transformer编码器中直接使用自注意力机制将导致过度平滑问题，并降低动作边界的识别能力。
其次，由于动作概念的高级语义，其时间边界可能不如对象边界清晰，并且由于不同劳动力之间的不一致性，GT值标签也可能包含一些噪声。
因此，严格的集匹配损耗可能会对Transformer的收敛产生负面影响，并且不是训练和通用化的最佳选择。

为了解决上述问题，我们提出了一种用于直接动作proposal生成的松弛变换译码器（Relaxed Transformer Decoder）（RTD）架构。

与原始的目标检测Transformer相比，我们做了三个显著的改进以适应视频任务。

首先，我们用定制的边界关注架构替换原始的Transformer编码器，以克服过度平滑问题。
其次，我们提出了一种松弛匹配器，以将单一赋值的严格标准简化。
最后，我们设计了一个用于训练和推理的三分支检测头。在回归时间box和GT box之间添加完整性头来显式估计tIoU。我们观察到，这种tIoU loss可以指导transformer的训练，并将三个头正则化以收敛到稳定解。

贡献：

我们首次采用Transformer架构在视频中生成直接动作proposal，从全局角度对提议之间的依赖关系进行建模，并通过使用简单整洁的框架简化时间动作提议生成pipeline，删除手工设计，大大减少了推理时间。
我们对DETR进行了三项重要改进，以解决视频中的时间位置和图像中的空间检测之间的本质差异，包括边界注意表示、松弛机制和三分支头设计。

我们使用I3D模型提取视频特征序列作为RTD网络输入（双流）。

详细结构：

12.1 Boundary-attentive representations

对于时间动作proposal生成，在视觉表示中保持清晰的边界信息以允许后续解码处理至关重要。为了缓解特征变化缓慢的问题，我们提出了边界注意模块，用判别动作边界信息显式增强的short-term特征。具体来说，我们将原始特征与自己的动作开始和结束分数相乘，其中每次的动作边界分数通过时间评估模块估计。

12.2 Relaxed Transformer decoder

我们使用普通的Transformer解码器直接输出时间动作propsal。该解码器将一组提议query和边界注意表示作为输入，并通过堆叠的多头自注意力和编码器-译码器注意块输出每个query的proposal embedding。
对于时间动作proposal生成而言，只有单个检测结果匹配groundtruth实例的匹配标准可能是次优的。在实践中，我们发现围绕GT的一些时间段之间的视觉差异非常小，严格的匹配标准将使整个网络混淆和因此很难收敛到稳定解。
为了解决这个问题，我们提出了一种松弛匹配方案，其中多个检测到的行动proposal在与GT匹配时被指定为正。具体来说，我们使用tIoU阈值来区分正样本和负样本，其中tIoU计算为目标和预测之间在其联合上的区间。tIoU高于某一阈值的预测将被标记为正样本。在实验中，我们观察到这种简单的松弛将减轻RTD网络的训练难度，并有助于提高最终性能。

12.3 Three-branch head design

RTD网络通过设计三个前馈网络（FFN）作为检测头来生成最终预测。我们推广了目标检测中的bbox头和cls头来预测时间动作proposal。

边界头对动作建议 $ψ^n=（t^n_s，t^n_e）$ 的时间边界元组进行解码，该动作建议 $ψ^n=（t^n_s，t^n_e）$ 由起始帧 $t^n_s$ 和结束帧 $t^n_e$ 组成。
Binary classification head预测每个提案的前景置信度得分 $p_{bc}$ 。
此外，提出了一个完整性头来评估预测完整性 $p_c$ 相对于GT的情况。

值得注意的是，一开始，边界头无法预测高质量的proposal，因此不能用低质量的proposal有效地训练完整性头。我们遵循DRN应用两步训练策略。在第一步中，我们通过最小化方程（2）和（3），并且冻结完整性头部和训练RTD网络的参数。在第二步中，我们修复RTD网络的其他部分，只训练完整性头。

为了对每个方案进行更可靠的置信度估计，我们将每个方案的二进制分类分数 $p_{bc}$ 和完整性分数 $p_c$ 进行简单取平均融合。生成的最终方案集直接评估，无需任何后处理方法。

误差分析：

定位误差是指当proposal被预测为前景时，其tIoU为最小的0.1，但不满足tIoU阈值。
背景误差是指当一个方案被预测为前景，但与其GT的tIoU小于0.1。
我们观察到RTD网络在每次预测中都有最多的真正样本。RTD网络中的定位误差比例明显小于BSN和BMN中的定位误差比例，证实了RTD预测的整体精度。

双阶段TAL的评估范式：

一种策略是使用Untrimmed Net的全局分类分数，并为每个视频保留前2个预测标签。然后，我们将分类分数分配给每个提议，并使用融合提议可信度分数和全局分类分数作为检测分数。
另一种策略是，我们使用提议级分类器P-GCN来预测每个提议的动作标签，并使用预测的分数进行评估。

13 ATAG(2021)

之前的基于局部特征的方法通常在复杂场景中失败，其中感兴趣的动作涉及不相关的帧和背景噪声，并且局部节奏上下文变得不那么有效。

为了解决这些问题，我们提出了一种网络，叫做augmented transformer with adaptive graph network(ATAG)，以利用TAPG(Temporal action proposal generation)的远程和局部时序上下文。

具体来说，我们通过配备片段动作度损失和front block（augmented transformer）来增强普通的transformer，它提高了捕捉长距离依存关系和学习噪声动作实例鲁棒特征的能力。
此外，提出了一种自适应图卷积网络（adaptive graph convolutional network）（GCN），通过挖掘位置信息和相邻特征之间的差异来建立局部时间上下文。这两个模块的特征携带了丰富的视频语义信息，并进行了融合，以实现有效的时序proposal生成。

模型包括一个augmented transformer，用于挖掘长距离时间上下文以进行噪声动作实例定位，以及一个捕获局部时间上下文的AGCN。

然而，如果在我们的任务中直接应用普通的transformer，则有两个问题。

首先，传统TAPG方法中的损失函数仅监督proposal级信号，不能直接引导transformer将远程特征聚合到片段级特征。因此，我们根据transformer输出的片段级特征，应用片段actionness损失将每个片段二元分类为动作或背景。这些片段，尤其是那些嘈杂的片段，需要从其他片段中提取有用的信息进行正确分类，因此片段的动作性损失明确地迫使转换器有选择地学习长期依赖关系。
另一方面，在普通的transformer中，当生成key和query时，感受野约束于片段本身，对于这些噪声片段来说，它不是一种稳健的特征学习风格。为了解决这个问题，我们在普通transformer的顶部引入了一个前块。前块是一个基于卷积的轻量级网络，它扩展了时间感受野并滤除噪声帧特征。

对于局部时间上下文捕获，我们关注于挖掘相邻特征之间的位置和梯度/差异信息。我们提出了一种AGCN来构建局部时间上下文，其中仔细设计了两个邻接矩阵。

一个矩阵包含训练期间生成的所有元素。它类似于常规卷积层，但不同的位置对应不同的核，这代表了所有训练数据和位置信息的常见模式。它可以自适应地确定距离较远的片段是否应该比中心片段具有更小的权重，或者是否应该为视频边缘附近的片段分配更小的权重。
另一种是基于内容的邻接矩阵，它捕获节点对之间的差异，并表示每个数据的唯一模式。
通过结合上述两个邻接矩阵，我们的数据驱动图增加了图构造的灵活性，并为在各种样本中构建局部上下文关系带来了更多的通用性。

13.1 Augmented transformer with adaptive graph architecture

直接使用普通transformer有两个问题。首先，TAPG的主要任务是边界回归，相应的损失函数监督提议级信号，无法引导转换器有效学习每个snippet的长期语义关系；其次，根据等式1，注意力映射矩阵A中任何元素 $A_{mn}$ 的计算仅取决于snippet m和n的特性，即 $F_m^g$ 和 $F_n^g$ ，这表明注意力映射生成不考虑任何时间上下文，尤其是在有限的transformer层中。为了解决上述问题，我们在普通transformer中添加了一个片段动作损失和一个前块，称之为增强transformer。
片段actionness损失明确地指导transformer在片段级别学习有效的远程依赖关系。在FFN上配备了一个动作性预测器，通过最小化以下二元分类在动作/背景类别上的损失来预测输入片段中存在动作实例的概率。
前块是一个由三部分组成的轻型网络，用于扩展时序感受野。我们首先应用一个线性门控单元，然后是一个并行的1×1卷积层和3×1平均池层，步长为1，以扩展感受野，小的3×1平均池层也可以平滑片段级特征，以滤除微小的噪声帧。最后一部分是一个具有较大核尺寸的卷积层，例如7×1。为了避免大尺寸核的过度拟合，我们采用了深度方向可分离卷积。我们对每个部分应用剩余连接，并在每个部分后面进行层归一化。

13.2 Adaptive graph convolutional layer

为了捕捉局部上下文，我们设计了一个新的图卷积层来构造局部分支。我们构建了一个视频图G={V，E}，其中 $V=\{vi\}^{T}_{i=1}$ ，E分别表示节点集和边集。每个节点表示一个片段，每个边显示两个片段之间的依赖关系。对于局部上下文建模，两个节点之间的边缘根据其时间距离构建。
公式: $F (Fl) = W \cdot Fl \cdot (A a + A d) ⊙ M$
第一部分（ $A_a$ ）在训练阶段完全参数化和优化。 $A_a$ 中的元素可以是任意值，没有任何约束，这意味着完全根据训练数据和视频中节点的位置学习图的边缘。
第二部分（ $A_d$ ）是一个数据相关图，它自适应地学习每个视频的唯一图。我们的GCN用于捕捉局部时间上下文，因此我们更加关注特征的差异。为了确定两个节点之间是否存在连接以及连接的强度，两个节点m和n的差值计算为公式。

13.3 Output module

时间边界分类（Temporal boundary classification）。由于我们的全局-局部组合机制，这两个分支特征具有精确和区分的动作/背景表示。在这里，我们将它们输入到由两个时间卷积层和一个sigmoid激活函数组成的两个相同的卷积网络中，以分别生成每个片段的起始 $p_s$ 和结束 $p_e$ 的概率。
完整性回归（Completeness regression）。除了预测边界外，还训练网络预测提案的完整性，以提高最终结果。我们的完全性回归网络引入了边界匹配机制来生成密集分布提案的完全性分数。对于每个proposal，我们从相应的两个分支特征中抽取32个特征。然后将采样特征输入完整性预测网络，生成两个完整性得分图 $M^{cc} \in R^{T×D}$ 表示完整性分类， $M^{cr}∈ R^{T×D}$ 表示完整性回归，其中D是最大proposal持续时间，并根据数据集进行设置。

14 AEI(2021)

end-to-end模型

人类通常通过演员与周围环境之间的互动来感知视频中动作的建立。只有当视频中的主要角色开始与环境交互时，动作才会开始，而当主要角色停止交互时，动作才会结束。在本文中，我们尝试通过提出演员-环境交互（Actor Environment Interaction）（AEI）网络来模拟人类的这种能力，以改进时间动作建议生成的视频表示。

AEI包含两个模块，即基于感知的视觉表示（perception-based visual representation）（PVR）和边界匹配模块（BMM）。PVR通过使用所提出的自适应注意机制来考虑人与人之间的关系和人与环境的关系来表示每个视频片段。然后，BMM采用视频表示来生成动作建议。

正如我们所观察到的，人类有能力通过两个步骤感知视频中建立的动作。

首先，确定每个时间段的主要参与者；
然后，观察主要参与者和环境之间的交互，以指定动作开始和结束的时间。

AEI由visual representation module (PVR) and a boundary-matching module (BMM)组成

PVR由三个部分组成：(i) environment spectator; (ii) actors spectator; and (iii) actors-environment interaction spectator

此外，我们在actors spectator中引入了一种新的自适应注意力机制（adaptive attention mechanism）（AAM），以选择主要执行动作的主要actor。

贡献：

我们提出了一个视频表示网络AEI，它遵循人类感知过程来理解人类行为。
我们引入了一种新的自适应注意力机制（AAM），该机制同时选择主要参与者，消除不必要的参与者，然后提取主要参与者之间的语义关系。
我们通过在两种网络架构下实现BMM来研究拟议AEI的有效性：基于CNN和基于GCN（graph conv）。

TAPG的目的是在一段未经剪辑的长视频中提出紧密包含动作的间隔。以往的工作可分为两大类：基于锚的和基于边界的。

基于锚的方法受2D图像中基于锚的对象检测方法的启发，预定义了一组固定片段，并尝试将其适合视频中的GT动作片段。虽然在其中一些方法中可以应用回归网络来细化建议，但有限数量的anchor不能适应所有长度不同的地面真值作用。
基于边界的方法通过定位视频中出现的所有动作的开始和结束时间，并通过边界匹配模块进行匹配来解决这个问题。

本文我们提出了AAM，这是一个模块，分别利用可微硬（differentiable Hard）Attention Network和自注意力网络来选择视频的主要参与者，并学习主要参与者之间的关系。

详细过程：

14.1 Perception-based Visual Representation (PVR)

Environment Spectator。Environment Spectator旨在提取输入δ帧片段的全局语义信息。为了提取片段的空间和时间细节，我们采用了在动作识别基准数据集上预先训练的3D网络作为主干特征提取器。通过三维网络的所有卷积块处理片段，以获得特征图M；然后，使用平均池算子生成时空特征向量 $f_e$ 。
Actors Spectator。Actors Spectator旨在从语义上提取主要演员的表征。没有人（演员）的情况下，行动是不可能发生的。然而，当一个动作发生时，它并不一定表示场景中的每个演员都做出了动作。首先，演员观众通过演员定位模块检测片段中的所有现有演员。然后，提出了一种自适应注意机制（AAM），用于自适应选择任意数量的主要参与者，并提取其相互关系，将其表示为单个特征向量。
Actor Localization。为了定位δ帧片段中的所有角色，我们在其中间帧上应用了人类检测器，假设δ很小，角色移动速度不够快，不会被错误定位。我们将 $B=\{bi\}^{N_B}_{i=1}$ 表示为一组检测到的人类I=1边界盒，其中NB≥0.然后，使用RoIAlign将每个检测到的边界框 $b_i$ 对齐到特征图M（由3D网络主干从Environment Spectator获得），然后平均合并到单个特征向量 $f_i^a$ 中。最后，我们得到了一组演员特征 $F_a=\{f^a_i\}^{N_B}_{i=1}$ 。
Adaptive Attention Mechanism (AAM)。考虑到 $N_B$ 个检测到的演员，只有少数检测到的演员（称为主要演员）在动作出现时真正为动作做出贡献。由于主要参与者的数量未知且在整个输入视频中不断变化，我们提出了一种自适应注意力机制（AAM），该机制继承了自适应硬注意力的优点，以选择任意数量的主要参与者，并提出了一种软自注意力机制来提取它们之间的关系。
Actors-Environment Interaction Spectator。该模块旨在建模环境特征 $f_e$ 和角色表示特征 $f_a$ 之间的关系，然后将它们组合成单个特征f。在此，我们采用自注意力模型，其中 $f_e$ 和 $f_a$ 是输入。我们将 $f_i$ 表示为片段 $s_i$ 的视觉表示。

14.2 Boundary-Matching Module (BMM)

我们的BMM包含三个组件：基本模块、时态评估模块和提议评估模块。
基本模块旨在建模片段之间的语义关系。
时间评估模块评估每个片段（0≤i≤T）来估计任何动作开始或结束的概率，分别对应于 $P_i^S$ 和 $P_i^E$ 。
提案评估模块评估视频中的每个间隔[i，j]，以估计其动作性得分，对应于 $P_{i,d}^A$ ,d=j-i。

在actors spectator中，对于actors定位，我们采用了在COCO数据集上预训练的Faster R-CNN模型来检测人类。

15 GCM(2021)

在本文中，我们认为动作单元之间的关系在TAL中起着重要作用，更强大的动作检测器不仅应捕获每个动作单元的局部内容，还应允许对与其相关的上下文有更广泛的视野。为此，我们提出了一种通用图卷积模块（general graph convolutional module）（GCM），该模块可以轻松插入现有的动作定位方法，包括两阶段和一阶段范式。具体来说，我们首先构造一个图，其中每个动作单元表示为一个节点，它们在两个动作单元之间的关系表示为一条边。在这里，我们使用两种类型的关系，一种用于捕捉不同动作单元之间的时间连接，另一种用于表征它们的语义关系。特别是对于两阶段方法中的时间连接，我们进一步探索了两种不同的边，一种连接overlaped的动作单元，另一种连接周围但不相交的单元。在我们构建的图的基础上，我们应用图卷积网络（GCN）来建模不同动作单元之间的关系，这能够学习更多信息表示，以增强动作定位。

基于上述直觉，本文从时序关系和语义关系两个角度研究了动作单元之间的关系。

时序关系：例如在中间的某个动作，其会受到其前方或者后方的背景的影响，如：背景在草地的话，则动作很可能是某些运动。
语义关系：两个相同的不同的视图的动作距离较远。如果我们额外利用后续动作的内容，我们可以获得更完整的信息来预测前序的动作类别。

为了模拟动作单元之间的相互作用，一种可能的方法是采用自注意力机制，正如之前在语言翻译和物体检测中所做的那样，来捕捉动作单元之间的成对相似性。自注意力模块可以通过使用自动学习的聚合权重聚合来自所有其他动作单元的信息来影响单个动作单元。然而，由于查询所有动作单元对具有节点数的二次复杂度（注意，每个视频可以包含数千个以上的动作单元），因此该方法的计算成本很高。

相反，图卷积网络（GCN）将卷积从类网格数据（例如图像）推广到非网格结构（例如社交网络），在机器学习领域受到了越来越多的关注。GCN可以通过聚合来自相邻节点的信息来影响每个节点，因此非常适合利用动作单元之间的关系。更重要的是，与自注意力策略不同，应用GCN使我们能够仅从每个动作单元的局部邻域聚合信息，从而有助于显著降低计算复杂度。

为了构建图，我们研究了动作单元之间的三种边缘，包括：

上下文边缘，以纳入每个提议实例的上下文信息（例如，通过访问图1中的p2和p3来检测p1）
用于从附近但不同的动作单元查询知识的周围边缘（例如，从p4查询p1）。
语义边缘涉及语义相似单元的内容，用于增强动作识别（例如，通过考虑p5来识别p1）。
然后，我们对构造的图进行图卷积。虽然信息是从每层的本地邻居聚合而来的，但如果GCN的深度增加，则远程节点之间的消息传递仍然是可能的。此外为了避免巨大的计算成本，我们进一步设计了一种采样策略，以有效地训练GCN，同时保持所需的检测性能。

贡献：

第一个利用动作单元之间的关系进行视频时间动作定位。
为了模拟动作单元之间的相互作用，我们提出了一个通用图卷积模块（GCM），通过基于我们有价值的观察建立边缘来构建动作单元图，然后将GCN应用于动作单元之间的消息聚合。我们的GCM可以插入现有的两阶段和一阶段方法。

本文从以下几个方面扩展了我们在ICCV 2019中发布的初步版本。

我们将图构造和图卷积集成到一个通用的图卷积模块（GCM）中，以便所提出的模块可以插入任何两阶段时间动作定位方法（例如SSN、R-C3D和CBR）和一阶段方法（例如D-SSAD）。
除了我们在ICCV论文中利用的时间关系外，我们还进一步探索语义关系，以学习更多区分性表示。实验结果表明，语义关系为动作识别提供了更有价值的信息。
我们进行了更多的消融研究（例如，语义边缘分析、与基线方法的运行时比较以及一阶段方法的比较），以验证所提出方法的有效性和效率。

对于实际应用，图可能很大，直接使用GCN效率很低。因此，在本文中，考虑到灵活性和可实现性，我们在框架中采用SAGE方法作为采样策略。

动作单元可以是两阶段动作定位方法（例如SSN[56]）中的提议或一阶段方法（例如SSAD[26]）中的视频段。

我们方法的示意

给定一组动作单元（例如，两阶段方法中的提议和一阶段方法中的分段），我们的图卷积模块（GCM）按每个动作单元实例化图中的节点。然后，我们在节点之间建立三种边来建模动作单元之间的关系，并在构造的图上使用GCN。最后，我们的GCM模块输出关系感知特征。
对于两阶段动作定位方法，我们的GCM可以在第二阶段用于增强提议特征，用于动作分类和边界回归。
对于单阶段动作定位方法，我们的GCM可以用于在锚定层之前增强视频特征。

详情：

15.1 Action unit graph construction

构造边的一种方法是将所有动作单元相互链接，但这会导致遍历所有动作单元对的大量计算。由于不应连接一些不相关的动作单元，因此也会产生动作定位的冗余或噪声信息。在本文中，我们通过利用动作单元之间的时间相关性/距离和语义关系，设计了一种更智能的方法。具体来说，我们分别介绍了三种类型的边缘，上下文边缘、周围边缘和语义边缘。
Contextual edges。 $r(p_i,p_j)$ 表示动作单元之间的相关性，由tIoU度量定义，
Surrounding edges。上下文边缘连接通常对应于同一动作实例的重叠动作单元。实际上，环绕但不相连的动作单元（包括背景项）也可以相互关联，它们之间传递的消息将有助于相互检测。我们首先利用 $r(p_i,p_j)=0$ 来查询分离的动作单元，然后计算以下距离 $d(p_i,p_j)=\frac{|c_i−c_j|}{U(p_i,p_j)}$ ，如果 $d(p_i,p_j)<θ_{sur}$ ，其中 $θ_{sur}$ 是某个阈值，则在附近的动作单元之间添加边缘。在上述等式中， $c_i$ （或 $c_j$ ）表示 $p_i$ （或 $p_j$ ）的中心坐标。作为上下文边缘的补充，周围边缘使消息能够通过不同的动作实例，从而为检测提供更多的时间线索。
Adjacency matrix。上述上下文边缘（Contextual edges）和周围边缘（Surrounding edges）旨在利用每个动作单元的时间上下文，但仍然忽略了动作单元之间的语义信息。值得注意的是，一个未经剪辑的视频通常包含多个动作实例（例如，THUMOS14数据集上的每个视频平均包含15个以上的动作实例），并且一个视频中的实例通常属于相同或语义相似的动作类别。例如，板球保龄球和板球投篮的动作通常出现在THUMOS14上的同一视频中。虽然在执行动作定位时，它们的类别不同，但从直觉上看，板球保龄球的语义有助于从其他动作（例如悬崖跳水）中识别板球投篮。因此，距离动作较远但包含类似语义内容的提议可能会为检测动作提供指示提示。为了利用这些语义信息进行动作定位，我们在共享相似语义的动作单元之间添加了语义边缘。特别是，我们首先将第i个动作单元的动作单元集 $S_i$ 定义为…，其中， $N_l(i)$ 是提议 $p_i$ 的l个最近邻域的索引集， $N_l(i)$ 在特征空间中构建，依赖于动作单元特征 $x_i$ 和 $x_j$ 之间的余弦相似性。然后，我们在 $p_i$ 和 $S_i$ 中的动作单元之间建立语义边缘。注意，动作单元特征 $x_i$ 可以是包含丰富语义信息的高级外观或运动特征。换句话说，可以使用具有相似外观（例如，一些相似的地方）或运动（例如，不同参与者执行的相同动作）的动作单元来帮助识别动作单元。总之，节点 $p_i$ 和 $p_j$ 之间的边缘 $e_{ij}$ 可以公式化为:
Adjacency matrix。我们可以应用余弦相似性来估计边缘eij的权重

15.2 GCM for two-stage action localization methods

由于GCM的残差性质（见等式（2）），拟议的GCM可以很容易地插入现有的两阶段动作定位方法，这通常涉及以下步骤：步骤1：生成一组候选提议，其中可能包含动作实例；第2步：使用一些特定的特征提取器，这些提取器可以是现成的或以端到端的方式进行训练，以获得提案特征；步骤3：使用动作分类器和边界回归器处理提议特征，这些特征通常被实现为完全连接的层；步骤4：执行重复删除，这通常通过使用非最大抑制（NMS）实现。
在本文中，我们提出的GCM用于第2步和第3步之间。给定一组提议，我们的GCM首先根据等式构造一个提议图。然后，通过等式构造的图进行图卷积，获得关系感知的提议特征。结合之前的工作SSN[56]，我们发现，借助两个GCM（一个对原始提议特征 $x_i$ 进行，另一个对扩展提议特征 $x^′_i$ 进行）分别预测动作标签和时间边界是有益的。扩展特征 $x^′_i$ 是通过首先在左右两侧扩展 $p_i$ 的时间边界（其长度为 $\frac{1}{2}$ ），然后提取扩展边界内的特征。

15.3 GCM for one-stage action localization methods

我们提出的GCM是一个通用模块，用于利用动作单元之间的关系，如第1节所述，动作单元可以是单阶段动作定位方法中的片段。
现有的单阶段方法受到了图像中单阶段目标检测方法的启发。这些方法中使用了三步管道，总结如下。步骤1：将输入视频均匀划分为T段，并为每个段提取C-dim特征向量，从而得到1D特征图 $F∈R^{T×C}$ ；步骤2：根据F获得具有多个时间尺度（即不同时间粒度）的1D特征图；步骤3：预测安装在1D特征图上每个位置的锚的动作类别和边界偏移。为了更好的可读性，我们将每个位置的特征向量称为特征单元。
我们提出的GCM用于第2步和第3步之间。虽然特征单元的边界不重叠，但我们可以合并我们的GCM，以利用特征单元之间的关系，只需稍加修改。特别是，我们只考虑周围边缘和语义边缘来链接特征单元，并执行图卷积来聚合消息。直觉是，特征单元可以被视为提案的特例。具体来说，每个特征单元对应于视频中具有特定持续时间的片段，并且这些片段不重叠。通过将GCM添加到一维特征图中，我们能够利用一维特征图中特征单元之间的关系。值得一提的是，我们的模块可以在整个网络中插入一次或多次，以在不同尺度上建模特征关系。（因为特征是不会重叠的）

15.4 Efficient training by sampling

典型的动作单元生成方法通常为每个视频生成数千个动作单元。将上述图卷积应用于所有动作单元需要大量计算和大量内存占用。为了加速GCN的训练，提出了几种基于邻域抽样的方法。在这里，我们在方法中采用了SAGE方法，因为它具有灵活性。
SAGE方法以自顶向下的方式逐层均匀采样每个节点的固定大小邻域。换句话说，第(k−1)-th层的节点表示为第k层中节点的采样邻域。在对所有层的所有节点进行采样后，SAGE以自底向上的方式执行信息聚合。
我们在测试时不进行任何采样。

采用双流。

16 AVFusion(2021)

用于未修剪视频时间动作定位（TAL）的最先进架构仅考虑RGB和光流帧，而信息丰富的音频模态完全未被开发。音频融合已被探索用于相关但可能更容易的修剪（剪辑级）动作识别问题。在本文中，我们提出了简单但有效的基于融合的TAL方法。据我们所知，我们的工作是第一个共同考虑音频和视频模式的监督TAL模型。我们的实验表明，对于最先进的纯视频TAL方法，我们的方案不断提高性能。

贡献：

我们提出了简单但有效的融合方法，将音频和视频模式结合起来用于TAL。我们的工作是第一个为监督TAL联合处理音频和视频模式。
我们表明，我们的融合方案可以很容易地插入现有的最先进的基于视频的TAL pipeline。
我们的实验包括涉及多种融合方案、模式组合和TAL架构的消融实验。

TAL的融合方法：多模态融合是视频理解任务的有效技术，因为它能够整合视频中的所有可用信息。文献中的融合方案可分为3大类：早期融合、中期融合和后期融合。

后期融合将更接近每个单独模态流输出端的表示组合在一起。当对每模态预测进行融合时，该技术也称为决策级融合。I3D中使用了决策级融合，作为当前TAL最先进技术的特征提取器。然而，与流行的分类设置不同，决策级融合对于TAL来说是一个挑战，因为预测通常在相对时间范围内不同。前面介绍的PGCN通过对两种模式（RGB，光流）的组合方案池执行非最大抑制来解决这个问题。MUSES baseline融合了RGB和流量预测。
中间融合结合了每个单独模态流的中间级特征表示。Feichtenhofer等人发现，在最后一个卷积层融合RGB和光流可以产生良好的视觉形态特征。由此产生的中层特征已被性能良好的TAL方法成功应用。特别是，G-TAD利用它们来获得每个时间方案的特征表示。
早期融合涉及在输入级融合模式。在比较不同融合方案的少数论文中，早期融合通常是较差的选择。

在我们的工作中，我们介绍了两种类型的中期融合方案以及决策级融合，以结合音频、RGB和光流模态，实现最先进的监督时间动作定位。

我们的目标是将音频尽可能无缝地整合到现有的纯视频TAL架构中。为了实现灵活的集成，我们提出了两种方案——提议级别融合和编码级别融合。接下来我们将描述这些方案。

Proposal fusion。这是一种决策融合方法，顾名思义，其基本思想是合并音频和视频模式中的提议。首先，音频提案的获取方式与获取视频提案的过程类似。如前所述，融合动作类级别的分数很简单，因为每个分数向量的长度相同。然而，来自音频和视频模态的proposal包括可变长独立生成的边界偏移。这使得融合任务在TAL环境中具有挑战性。为了解决这个问题，同时坚持保持现有仅视频流的pipeline不变的目标，我们从pipeline中重新设计了相应的模块。具体来说，我们使用非最大抑制（NMS）来迭代选择与其他方案重叠最小的最佳方案。在某些架构（例如PGCN）中，NMS用于将proposal与RGB和光流的proposal分离，这些组件都是共同构成视觉模式的一部分。在应用NMS之前，我们首先将视觉模态proposal与音频对应项合并。
encoding fusion。替代上述每模态proposal的后期融合，另一种方法是利用音频 $F_a$ 和视频特征序列 $F_v$ 的组合来生成单个、统一的proposal集。然而，由于编码的表示维度 $d_a$ 、 $d_v$ 和序列元素 $L_a$ 、 $L_v$ 的数量可能不相等，标准的逐维级联技术不适用。为了解决这个问题，我们探索了四种方法，以使序列长度等于特征融合的长度。对于前两种方法，我们回顾了特征提取阶段，并以视频使用的帧速率提取音频特征。因此，我们获得了音频和视频片段的配对序列（即 $L_a=L_v$ ）。（1）连接（Concatenation）（Concat）：成对序列沿特征维度连接。（2）残差多模态注意（Residual Multimodal Attention）（RMATN）：为了使用其他模态的特征来优化每个模态的表示，我们采用了残差多模态注意机制[46]。（3）复制和修剪（Duplicate and Trim）（DupTrim）。（4）平均和微调（Average and Trim）（AvgTrim）。对于上述涉及修剪的方法，生成的音频和视频序列沿特征维度串联，以获得融合的多模态特征序列。

具体实现：

16.1 TAL video-only architectures

为了确定音频模态的效用并确保我们的方法易于适用于任何纯视频TAL方法，我们不改变baseline的架构和超参数（例如片段长度、帧速率、优化器）

16.2 Audio extraction

对于音频，我们使用VGGish，这是一种最先进的音频特征提取方法。我们使用16kHz的采样率来提取音频信号，并从1.2s长的片段中提取128-D特征。对于涉及注意力融合的实验，我们通过将用于视频特征提取的片段的1.2s窗口居中来提取特征，以保持音频和视频模式的相同特征序列长度。短于1.2s的窗口（一些开始和结束的窗口）在末尾用零填充，以指定不存在更多信息，并符合1.2s窗口要求。尽管相反（即改变视频的采样率，保持音频设置不变）是可能的，但我们更喜欢前者，因为纯视频架构和（视频）数据处理可以按照最初的规定使用，而不必担心这种变化对现有纯视频架构设置和超参数选择的后果。

16.3 Proposal Generation and Refinement (PG/R)

对于提案生成，我们考虑了最先进的架构GTAD、BMN和BSN。同样，为了改进提议，我们在音频实验中考虑了PGCN和MUSE。

16.4 Optimization

我们使用原始设置训练除PGCN和GTAD之外的所有架构。我们对PGCN使用256的批量，对GTAD使用16的批量。对于训练，我们使用4*GeForce 2080Ti 11GB GPU。除了基于Keras的VGGish之外，整个代码库都基于Pytorch库。

17 ContextLoc(2021)

我们通过在流行的两阶段时间定位框架中丰富局部和全局环境来应对这一挑战，在该框架中，首先生成行动建议，然后进行动作分类和时间边界回归。我们提出的模型称为ContextLoc，可分为三个子网络：L-Net、G-Net和P-Net。有效地处理TAL任务需要一种视觉表示，它共同追求两个混淆的目标，即时间局部化的细粒度判别和动作分类的足够视觉不变性。

本文通过利用视频中丰富的局部和全局上下文，在我们提出的两阶段方法中解决了这一挑战。

本地上下文指提案中的片段。它们包含对TAK至关重要的细粒度时间信息。如图1（a）所示，我们通过打保龄球和捕捉板球的时刻来定位动作“板球保龄球”的边界。因此，正是捕捉的这些特殊时刻促进了时域中的定位。然而，以前的方法通过将时许最大池化应用于提案中片段的特征来获得提案的特征，这不可避免地会破坏细粒度的时间信息。
全局上下文指的是整个视频。它提供了与动作分类建议特征互补的判别信息。如图1（b）所示，为了区分“跳远”和“跳高”，我们不仅需要检查动作持续时间的最后几帧，还需要检查持续时间之外的背景帧。此外，全局环境提供了高级活动信息，对应出现在其中的活动类别强制执行强优先级。例如，在家庭活动的视频中不太可能看到体育动作。现有的TAL模型在很大程度上忽略了视频级别的全局上下文。

我们引入了一种新的网络架构，称为Con-textLoc，在TAL的统一框架中对局部和全局上下文进行建模。它由三个子网络组成：L网络、G网络和P网络。

受自注意力的启发，L-Net执行查询和检索过程。但与自注意力不同的是，我们的L网络中的KQV对应于不同的语义实体，它们是专门为丰富局部上下文而设计的。具体来说，proposal的特征向量被视为一个query，以匹配该建议中片段的关键特征向量，从而可以检索本地上下文中的相关细粒度值并将其聚合到此proposal。
G-Net通过集成每个提案的视频级表示和特征来建模全局环境。然而，将这两者简单地串联起来就足够了，因为前者不仅包含相关提示，而且还包含不相关的噪声。此外，加强不同提案所需的内容部分也不同。为了有效地将视频级信息与提议级特征相结合，我们提出了全局上下文自适应。它将视频级表示关注每个提案中的局部上下文，以便分别适应全局上下文。
P-Net建模了上下文感知的提议间关系。这包括由局部上下文增强的提案级功能之间的交互，以及适应不同提案的全局上下文之间的交互。我们将现有模型用作P-Net，并研究了两种候选网络：P-GCN和非局部网络（non-local network）。

贡献：

据我们所知，这是首次尝试利用片段级局部上下文和视频级全局上下文在两阶段TAL框架内增强提案级功能的工作。
我们介绍了一种新的网络架构，称为ContextLoc，由三个子网络组成，即L-Net、G-Net和P-Net。L-Net是第一个使用建议查询其中的片段并检索局部上下文以补充细粒度时间信息的网络。G-Net通过集成视频级表示来增强每个方案的特征。我们引入了一种新的上下文适应过程，以使全局上下文适应不同的提议。虽然P-Net是建立在现有网络上的，但我们证明了P-Net，无论其实例化如何，都是对L-Net和G-Net的补充。我们的Con-textLoc结合了这三个子网络各自的优势，实现了更有效的TAL。

我们使用Simonyan等人的双流策略来融合对RGB帧和光流帧的预测。

具体实现：

17.1 multi-level representations

如图2所示，ContextLoc显式建模了三个不同级别的表示：片段级表示 $x∈R^D$ （local context），提案级表示 $y∈R^D$ 和视频级表示 $z∈R^D$ （全局上下文）。提案由BSN获得，每个提案i有一个开始时间和一个结束时间。第i个建议的初始特征表示为 $y_i$ ，通过在其持续时间 ${x_j|j∈S(i)\}$ ，其中S（i）表示持续时间介于第i个建议的开始时间和结束时间之间的片段。类似地，初始视频级特征（表示为z）是通过temporal Max pooling合并视频中的所有片段级特征获得的。

17.2 Network architecture

ContextLoc由三个子网络组成：L-Net、G-Net和P-Net。它们分别通过局部上下文、全局上下文和上下文感知的提案间关系来增强每个提案的表示。继之前的工作之后，我们还将ContextLoc应用于每个具有较大时间持续时间的扩展提议。原始方案的最终表示用于动作分类（通过完全连接层），而扩展方案的最终表达用于完整性预测和时间边界细化。将这些分类和完整性分数明智地乘以元素，以进行最终分类预测。

17.3 L-Net (Local Context)

通过temporal max pooling获得的提案的初始特征不足，因为对本地化至关重要的细粒度时间信息丢失。L-Net通过在提案中找到与其最相关的片段并将其聚合以保留信息性特征来解决这个问题。我们将这些片段称为局部上下文，因为它们的时间范围在一个提议内，并且处于较低的语义级别。即重新生成proposal的特征。
受自注意力的启发，L-Net执行查询和检索过程。查询、键和值分别是每个方案的特征、每个方案中片段的特征以及这些片段的转换特征。具体来说，查询建议与此建议中的关键片段相匹配，以便可以检索本地上下文中的相关细粒度值并将其聚合到此建议中。这是通过在查询和键之间构建注意力映射来实现的，然后根据注意力权重聚集值。
attention map。proposal i和片段j之间的注意力权重 $j \in S (i)$ 测量它们的相关性，并确定将从该片段中检索多少信息。
Local context aggregation。我们首先通过一个MLP层转换每个片段的特征来计算值，然后通过注意力权重将其线性组合。该局部环境最终与提案的转换特征聚合，以获得该提案的新特征。

17.4 G-Net (Global Context)

视频级全局上下文很重要，因为它涉及背景和高级活动信息，这些信息对于区分类似外观和运动模式的动作类别至关重要。丰富全局上下文的一种简单方法是连接视频级表示 $z$ 和每个提案的特征。然而，这是不够的，因为全局表示不仅包含相关上下文，而且还包含不相关的噪声。此外，处理不同提案所需的环境也不同。这一分析思路促使我们在整合每一项提案之前，先适应全局环境。使用注意力机制，加权地将全局信息结合进局部信息
Global context adaptation。为了使全局信息适应第i个提议，我们首先将视频级表示z用于该提议 $y_i$ 的特征以及其中的片段级特征 ${x_j:j∈S(i)\}$ 。

17.5 P-Net (Inter-proposal Relations)

P-Net将 ${y_i^G\}$ 作为输入，并为每个提案输出一个新的表示。我们将现有模型用作P-Net，并研究了两种候选网络：P-GCN和非局部网络。
P-GCN构造了一个动作建议图。每个proposal被视为一个节点。有两种类型的关系边。一个连接重叠的提案，另一个连接不同但相邻的提案。然后，使用GCN根据提议级特征之间的关系更新它们。与P-GCN不同，非局部网络在所有提议上构建完整的图，并根据其成对相似性动态计算边缘权重。我们将深入研究它们作为我们语境中的构建块的有效性。
由于每个 $y_i^G$ 是两个部分的concat，如等式（6）所示，P-Net模型不仅是由局部上下文增强的提议级特征之间的交互，而且是适应不同提议的全局上下文之间的交互。我们将在实验中表明，后者有助于提高TAL性能。注：我们没有声称我们在P-Net中采用的任何特定网络架构是我们的贡献。我们想表明的是，P-Net，不需要实例化，是我们在本文中倡导的局部和全局上下文的补充，并且是拟议上下文中的有用组件。

17.6 Extended Proposals

TAL中的一种常见做法是在两端延长每个提案（例如，延长时间的50%）。从这些扩展方案和原始方案中获得的预测如第3.1节所述进行融合。之前的方法（如P-GCN）将扩展方案视为独立于原始方案的单个方案。正如我们将在实验中显示的那样，该策略不适用于L-Net和G-Net。一方面，将扩展方案的特征维数设置为远大于原始方案的特征维度可以解释时间持续时间的增加，但会显著增加模型的复杂性。另一方面，将扩展方案的特征维数设置为与原始方案相同会导致性能较差。此外，扩展提案和原始提案是分开处理的。它们的内部联系（即，原始提案是扩展提案的一部分）被忽略。
为了解决这个问题，我们将扩展方案视为L-Net和G-Net中的三个方案，即原始方案和两侧的扩展区域。每个扩展区域的duration是原始方案的50%。如图3所示，L-Net和G-Net分别处理这三个proposal，但使用共享权重。然后，我们连接它们的新表示。最后，P-Net，即图3顶部的“P-Net 2”，将扩展提案视为单个提案，并处理这些concat的特征。注意原件的处理。即：新提出的方案没有一开始就融合原来的proposal和扩展的proposal，而是先分开处理之后，再进行融合。（原来是先融合，再一起处理）

18 CSA(2021)

虽然一些编码特征可能对生成动作建议更有用，但先前的动作定位方法不包括任何使定位子网络能够更多关注更重要特征的注意机制。在本文中，我们提出了一种新的注意力机制，基于类语义的注意力（the Class Semantics-based Attention）（CSA），该机制从输入视频中存在的动作类语义的时间分布中学习，以找到编码特征的重要性分数，用于关注更有用的编码特征。

我们的注意力机制优于先前的自注意力模块，例如动作检测任务中的挤压和激发（类似于SENet中的那种自注意力机制）。我们还发现，我们的注意力机制是对这种自我注意力模块的补充，当两者结合使用时，性能会得到改善。

在编码特征处合并注意力，虽然之前没有用于动作定位ConvNet，但可以使用显著的自注意力方法（例如，基于挤压和激发（SE）的注意力，transformer）轻松实现，该方法学习编码特征的相互依赖性，以估计特征的相对重要性。相反，我们提出了一种新的注意力机制，该机制基于动作识别模型提取的、在动作定位网络编码器输入端使用的类特定语义丰富的特征来计算特征的相对重要性。我们使用这些特定于类的语义丰富特征的基本原理是，编码特征的重要性分布可能取决于视频包含的动作类（或动作类）。[19]中的一项消融研究证明了重要性分布的此类特定类别依赖性的证据，该研究表明，某些特定特征通道对于一个特定类别而言更为重要，而对于ImageNet数据集中的另一个类别而言，其重要性较低。对于动作定位任务，类语义可以跨时间轴变化，因为不同的动作类可以在不同的时间点出现。在完全和弱监督环境下（仅使用类级别的监督来学习动作的时间边界）的TAL方面的先前工作，使用类语义丰富的分类特征作为输入，并成功地推动了最先进的TAL性能。这表明类语义特征包含可靠动作定位的有用信息。为了从视频中随时间变化的类语义中学习特征的重要性，我们的新型注意力机制联合学习编码器输入特征的channel轴和temporal轴，并沿编码特征的通道和时间轴提供注意力。我们的注意力机制是通用的，可以很容易地应用于具有编码器和定位子网络的先验动作定位网络。我们的消融研究还表明，当与自注意力机制（如[19]）一起使用时，我们的新注意力机制可以提供互补优势。

与这些方法不同，我们在这项工作中的重点是完全监督的时间动作定位，其中我们使用我们的注意力机制从多裁剪片段表示中动作类语义的时间分布中学习，并将其应用于我们的编码特征，然后由局部化子网络处理以生成动作建议。

上述针对动作识别任务提出的注意力机制，对于以下方面的动作定位并不直接有用：

动作识别模型具有时空RGB输入，而时序动作定位模型使用编码的时间输入。
由于端到端训练中的计算约束，动作识别模型的可学习参数（包括其中的任何注意力机制）通常不属于竞TAL网络的训练过程。事实上，目前还没有关于在TAL网络中应用注意机制的研究。（原因是如果不固定住之前在大数据集上的backbone，则会显存占用太大）

注意力在动作定位网络中最直接的应用可能是通过使用channel-wise自注意力机制（如SE、CBAM和transformer）处理编码器输出的相互依存关系，在编码器输出处应用channel-wise自注意力

在本文中，我们探讨了这种自注意力机制，更重要的是，提出了一种新的注意力机制，该机制在定位网络的输入端处理动作“类”特定的语义丰富的时间特征，以识别编码器输出端的channel和temporal注意；我们的基本原理是：视频类别语义的时间变化可能有重要的线索，表明定位子网络应该关注哪些通道和时间点。

18.1 Class semantics-based attention (CSA)

为了帮助定位子网络更多地关注对定位任务更有用的特征通道和时间位置，需要一种注意力机制，该机制能够根据其对动作定位任务的有用程度或重要性来调整 $F_{i,t}$ 。为了缓解先验动作定位网络中输入自适应channel/temporal注意力机制的不足，我们提出了一个注意力模块，该模块独立估计每个通道和每个时间点的注意力权重，并将其独立应用于定位编码器子网络输出F。
Input for the attention modules。假设我们的通道/时间注意力机制更依赖于富含动作类信息的R特征，而不是富含前景/背景类信息的F特征，R可能是注意力模块更好的输入选择，我们选择它作为注意力模块的输入。与使用F作为输入的自注意力模块相比，我们发现我们的CSA性能显著更好，这表明这种基于类语义（或R输入）的注意力机制可能更有效。（即原始的由backbone提取到的特征）
Joint learning from class-semantics and temporal context。与消融研究中以图像为输入的图像分类任务不同，动作定位任务具有视频输入，这些视频输入不仅在不同时间点具有类别语义信息，而且这些类别语义在时间轴上也存在变化。例如，视频中的“喝咖啡”动作片段可以在“烹饪”动作之前，然后是“洗碗”动作。因此，R的局部时态理解可以指示在某个时间点哪个类语义更占主导地位。此外，由于边界检测是动作定位网络的一项重要任务，对这些类语义的这种变化的时间理解可以提供关于哪些时间位置对边界点更重要的指示。
Computation of the attention weights。注意力权重由两个独立的注意力模块计算，每个模块都有类语义丰富的R特征作为其输入。每个注意力模块（一个估计每通道注意力权重，另一个估计每个时间点注意力权重）从R的局部时间变化中学习，以计算每个通道和每个时间点的注意力权重。然后，我们将通道和时间注意力应用于F（图1）（或使定位子网络关注更重要的特征通道和时间位置，分别获得 $F_{AC}$ 和 $F_{AT}$ （图1））。最后，我们聚合 $F_{AC}$ 和 $F_{AT}$ 以获得最终注意力修正编码器输出 $F_A$ （图1）。接下来，我们介绍注意力模块的技术描述。

18.2 Technical description of the CSA

我们使用一个简单的注意力块，由一个一维卷积（内核大小为k）组成，该卷积操作简洁，可以从R的时间轴和通道轴联合学习。在时间轴上，该一维卷积的感受野为k，在通道轴上，其感受野为 $C_{in}$ （或特征通道的整个长度）。因此，它同时从全局通道上下文和局部时间上下文中获取可用信息。注意，我们的CSA注意力有两个注意力模块：一个计算每个通道的注意力，另一个计算时间点注意力。为了实现这一点，我们并行计算通道注意向量和时间注意向量，将权重分配给特定的通道时间输入位置。然后，我们通过一个简单的concat操作执行后期融合。我们使用模拟投影层将信道的结果输出数量缩小到类特征F的输出数量，然后由局部化子网进行处理。（压缩特征）

CSA在两个方面不同于自注意力机制

CSA基于编码器输入的类语义丰富特征估计注意力权重，并将其应用于编码器输出；而应用于编码器输入的自注意力机制基于编码器输出本身的TAL信息丰富特征估计注意权重。
通过简单的一维卷积，CSA可以从类语义和时间上下文中联合学习。当应用于BMN的编码器输出时，我们的CSA注意力机制优于我们实验的三种流行的自注意力机制，即transformer、CBAM和SE注意力机制。

19 TCANet(2021)

由于缺乏有效的时间建模和有效的边界上下文利用，当前方法生成的建议仍然存在时间边界不准确和用于检索的可信度较低的问题。在本文中，我们提出了时间上下文聚合网络（TCANet），通过“局部和全局”时间上下文聚合和互补以及渐进边界细化来生成高质量的行动建议。具体地说，我们首先设计了一个局部-全局时序编码器（Local-Global Temporal Encoder）（LGTE），它采用channel分组策略来高效地编码“局部和全局”时间相关性。此外，frame级和segment级边界回归分别采用提案的边界和内部上下文。时间边界回归器（Temporal Boundary Regressor）（TBR）旨在以端到端的方式将这两个回归粒度组合在一起，通过逐步细化实现精确的边界和提案的可靠置信度。

然而，现有方法有以下缺点：

卷积和全局融合都不能有效地建模时间关系。一维卷积运算在编码长期时间关系方面缺乏灵活性，受到内核大小的限制。全局融合方法忽略了每个时间位置的各种全局依赖性以及对局部细节的隐含关注，例如边界的局部细节。此外，通过平均池简单地收集全局特征可能会引入不必要的噪声。
仅用于回归的提案的内部上下文或边界上下文不如生成具有精确边界的提案。基于锚的方法中采用的方案的内部上下文可以获得可靠的置信分数，但无法生成精确的边界。相反，基于边界的方法中考虑的提案的边界环境对边界变化敏感，但生成的提案具有较低的提案水平置信度。

为了缓解这些问题，我们提出了用于高质量提议生成的时间上下文聚合网络（TCANet），如图1所示。首先，提出了局部-全局时序编码器（LGTE），以channel分组方式同时捕获局部和全局时态关系，其中包含两个子模块。具体来说，线性变换后的输入特征沿通道维度平均分为N组。然后设计局部时态编码器（LTE）来处理第一个A组以进行局部时态建模。同时，剩余的N−A组被全局时间编码器（GTE）捕获，用于全局信息感知。通过这种方式，LGTE有望整合全局提案的长期背景，同时恢复本地团体的更多结构和详细信息。其次，提出了时间边界回归（TBR）来分别利用帧级和段级边界回归建议的边界上下文和内部上下文。具体来说，框架级边界回归旨在细化具有界敏感性的候选提案的开始和结束位置，而段级边界回归则旨在细化提案在总体感知下的中心位置和持续时间。最后，通过互补函数和渐进边界细化获得高质量的建议。

贡献：

我们设计了一个局部-全局时间编码器，以信道分组方式同时捕获局部和全局时间关系。它可以很容易地嵌入到任何其他提议生成框架中，以实现高效的时间关系建模。
提出时间边界回归器来执行互补和渐进的边界细化，包括局部帧级边界回归和全局段级边界回归。

当前基于深度学习的动作识别方法主要分为三类。

第一种是双流网络，它采用RGB帧和光流来捕捉外观和运动信息。
第二种类型使用3D卷积直接从原始视频中捕获时空信息。
第三类旨在通过解耦（2+1）D卷积有效建模时空特征。（将3D卷积分解为1D+2D）

当前的提案生成方法主要分为基于锚的方法和基于边界的方法。

基于锚的方法是指滑动窗口或预定义锚的节奏边界细化。其中，TURN和CTAP直接连接提议的边界上下文和内部上下文进行边界细化（即开始和结束位置）
基于边界的方法旨在细化提议的持续时间和中心位置。然而，仅对边界位置进行细化并不能充分利用提案的文本信息，而仅对候选提案的持续时间和中心位置进行细化也会忽略局部边界细节。因此，将这两个回归粒度结合到一个统一的框架中是非常重要的。

TCANet主要包含两个模块：LGTE和TBR。LGTE用于同时捕获局部-全局时间相关性。TBR分别用于执行帧级和段级边界回归。

具体：

19.1 Feature Encoding

对于给定的视频，由于SlowFast和two-stream在视频分类任务中表现出色，因此可以提取特征。

19.2 Local-Global Temporal Encoder

局部时态编码器（LTE）负责根据局部细节动态捕获局部依存关系。准确地说，为了测量时间位置i与其局部区域之间的关系，采用两个时间位置之间的余弦相似性来生成相似向量 $S_i^l$ 和权重向量 $W_i^l$ ：
全局时间编码器（GTE）设计用于建模视频的长期时间依赖性。与LTE相比，GTE需要在时间维度上聚合每个位置的全局交互。因此，每个位置和全局特征之间的关系如下所示。
局部全局时间编码器（LGTE）。视频特征序列中的每个位置可以分别通过LTE和GTE进行局部和全局建模。然而，仅仅以“LTE-GTE”的形式将它们结合起来是不够的。为了解决这个问题，LGTE以信道分组方式实现。具体来说，如图3所示，输入特征首先由γ、ρ和φ投影。然后，这些输出沿通道维度分为N组。因此，每组的信道数为C/N。第一个A组由LTE处理，而另一个N−A组喂给GTE。对于位置i，局部和全局特征的组合输出可以写成。
我们注意到，我们的LTE类似于具有固定核的卷积。然而，与传统卷积相比，LTE每个时间位置的动态局部交互建模是唯一的，可以更好地适应复杂的时间变化。此外，LTE和GTE的结合使我们的LGTE能够捕捉整个视频的全局依赖性，并以较少的噪声动态建模局部变化。此外，信道分组方式确保了高计算效率和“局部和全局”关系的多样性。

19.3 Temporal Boundary Regressor

Complementary Regression Strategy。如图4所示，一个方案的特征分为三个部分：开始上下文 $F_s$ 、内部上下文 $F_c$ 和结束上下文 $F_e$ 。为了实现frame级回归，使用 $F_s$ 和 $F_e$ 对边界偏移进行回归 $∆\hat{s}$ 和 $∆\hat{e}$ 分别为开始时间和结束时间。
然而，仅使用边界的局部特征将失去提案的全局背景。因此，利用 $F_s$ 、 $F_c$ 和 $F_e$ 实现段级回归，共同回归中心位置偏移 $∆\hat{x}$ 和duration偏移 $∆\hat{w}$ 。
Progressive Refinement。

20 TadTR(2021)

以前的方法处理复杂pipeline的这一任务。在本文中，我们提出了一种端到端TAL Transformer（end-to-end temporal action detection Transformer） (TadTR)，具有简单的预测pipeline。给定一组称为动作查询的可学习嵌入，TadTR自适应地从每个查询的视频中提取时间上下文，并直接预测动作实例。为了使Transformer适应TAD，我们提出了三个改进以增强其局部性意识。其核心是一个时间可变形注意力模块，它选择性地关注视频中稀疏的一组关键片段。设计了分段细化机制和actionness回归头，分别细化预测实例的边界和置信度。TadTR比以前的检测器需要更低的计算成本，同时保持显著的性能。

在训练过程中，实例匹配模型根据预测动态确定一对一的GT信号。因此，我们的检测器避免了重复检测，并且可以重新移动NMS。

然而，原始Transformer中的密集注意模块关注序列中的所有元素，通过设计对此类局部变化不太敏感，并且难以学习对信息帧的稀疏注意。

为了缓解这一问题，我们从[56]中汲取灵感，提出了一个时间可变形注意力（temporal deformable attention）（TDA）模块作为Transformer的基本构建块。它选择性地关注输入序列中参考位置周围的稀疏关键元素集，其中学习采样位置和注意力权重，并根据输入动态调整。这样，它可以自适应地提取上下文信息，同时保持局部性意识。
除了TDA，我们还做了两个额外的改进来增强局部性意识。首先，采用分段细化机制来细化预测动作的边界。具体来说，我们根据之前的预测迭代地重新关注视频，并使用新提取的上下文细化边界。
其次，我们在Transformer上建立了一个actionness回归，以预测一个可靠的置信度分数，称为检测排序的动作度。它使用RoIAlign提取每个预测动作的局部特征，并使用最佳匹配的GT动作估计其IoU。这比简单使用分类分数更可靠，因为分类分支可以从上下文中找到快捷方式，但忽略了完整的局部细节。尽管这些变化看起来很小，但它们显著提高了性能。

作为一个独立的检测器（没有额外的动作分类器），它实现了最先进的性能。

贡献：

我们介绍了一种端到端集预测（end-to-end set prediction）（SP）框架，该框架简化了时间动作检测（TAD）的pipeline。它可以检测单个不同网络中的动作，而不需要手工制作的组件。
我们提出了一种增强局部性意识的Transformer架构，以更好地适应TAD任务。其核心是一个时间可变形注意力（TDA）模块，该模块选择性地关注视频中的一组稀疏关键片段。我们表明，TDA对于TAD的SP框架的成功至关重要。

常见的TAL框架，如下图：

[(img-C7WOyL5D-1661342728132)(./appendix_img/image-20220801144942964.png)]

a. Multi-stage methods。他们首先生成候选段，并训练二元分类器，将每个段与置信分数相关联，从而生成建议。这些分数高的提议被馈送到多类分类器以对动作进行分类。候选段是通过密集均匀采样或分组可能包含动作的局部帧生成的。一些方法结合了多种方案以实现互补性。

b. Two-stage methods。两阶段方法通过采用一阶段前置生成器来模拟多阶段pipeline，该生成器直接预测与每个时间位置相关的预定义多尺度锚的分数和边界。这些方法需要人工设置多个锚定尺度，这限制了灵活性。

c. Top-down one-stage methods。自上而下的单阶段方法可以被视为单阶段建议生成器的类感知变体。最近，[44]使用一个无锚分支来增强基于锚的单阶段检测器，该分支根据动作中心进行预测。

d. Bottom-up one-stage method。[48]中提出的自底向上一阶段方法首先预测动作和边界概率，然后将具有最大结构和的帧分组为动作。我们注意到，所有上述方法都需要后处理步骤，例如NMS或分组，这会阻止端到端学习。

在本文中，Transformer用于捕获时间上下文信息，用于时间动作检测。具体来说，我们使用注意力模块来建模视频片段之间的关系、动作和帧之间的关系以及动作之间的关系。与以往许多注意力模型关注输入序列中所有位置的工作不同，我们引入了一个时间可变形注意力模块，该模块自适应地关注一组稀疏的关键帧，而不是所有帧。因此，可以在不需要过多计算成本的情况下提取上下文信息。除了自适应上下文之外，我们还使用动作回归头来跟踪对齐上下文，以便为Transformer的检测分配可靠的置信度分数。
TadTR基于预先训练的视频分类网络（例如I3D）编码的视频特征构建。图3显示了TadTR的总体架构。TadTR将视频特征和一组可学习的动作查询作为输入。然后输出一组动作预测。每个动作预测都表示为时间段、置信度分数和语义标签的元组。它包括一个Transformer编码器来模拟视频片段之间的交互，一个Transormer解码器来预测动作片段，以及一个额外的动作度回归头来估计预测片段的置信度分数。在训练过程中，使用实例匹配模块确定动作预测的一对一GT真值分配。

具体实现：

20.1 Prediction Heads

在每个解码器层的输出（更新的查询嵌入）后，我们应用FFN（前向网络）来预测分类概率 $\hat{p}_i$ 和对应于每个的动作实例 $\hat{y}$ 的时间段 $\hat{s}=(\hat{t},\hat{d})$ 。查询 $\hat{t}$ 和 $\hat{d}$ 均归一化。为了使实例的边界更精确，提出了一种分段细化机制。此外，还使用了一个额外的动作回归头来细化置信度分数。

20.2 Segment Refinement

Transformer能够捕获远程上下文信息。然而，由于缺乏局部性，预测的动作边界可能不令人满意。受[56]的启发，我们引入了一种细化机制来增强局部性意识并提高本地化性能。它涉及两种策略。第一个是分段的增量细化。我们不是在每个解码器层独立预测片段，而是根据先前预测的片段逐层调整片段。

20.3 Actionness Regression

时间动作检测的一个挑战是为排序生成可靠的置信分数。通常使用分类分数。然而，分类任务更侧重于判别特征，对动作的定位质量不太敏感。因此，检测的分类分数可能不可靠。示例如图4所示。
为了缓解这个问题，我们使用了一个actionness回归头，该头提取与预测片段的间隔对齐的上下文，并在其上预测动作性得分。通过这种方式，检测器对局部特征更加敏感，以便区分不同的段。

20.4 Instance Matching

实例匹配模块确定训练期间分配给每个检测的目标。受目标检测中DETR[8]的启发，我们将其框架化为一个集对集的二部匹配问题，以确保一对一的GT分配。
通过基于集合的实例匹配，每个GT将仅分配给一个预测，从而避免重复预测。这有两个优点。首先，TadTR不依赖于不可微非极大值抑制（NMS）进行后处理，并享受端到端训练。其次，我们可以使用有限查询（例如10）进行稀疏预测，而不是在许多以前的工作中进行密集预测（例如BMN[18]和g-TAD[43]的成千上万），这节省了计算成本。
在某种程度上，实例匹配模块执行可学习的NMS。匹配成本考虑了检测的分类分数。这样，分数较低的检测更有可能被分配非行动目标。因此，他们的分类分数将在训练过程中被抑制。

21 E2E-TAD(2022)

与端到端学习不同，大多数现有方法采用仅头部学习范式，其中视频编码器预先训练用于动作分类，并且只有编码器上的检测头针对TAD进行优化。没有系统地评估端到端学习的效果。此外，缺乏对端到端TAD中效率-精度权衡的深入研究。本文对端到端时间动作检测进行了实证研究。我们验证了端到端学习优于纯头学习的优势，并观察到高达11%的性能改善。此外，我们研究了影响TAD性能和速度的多种设计选择的影响，包括检测头、视频编码器和输入视频的分辨率。基于这些发现，我们构建了一个中分辨率基线检测器，它实现了端到端方法的最先进性能，同时运行速度提高了4倍以上。我们希望本文能够为端到端学习提供指导，并对该领域的未来研究有所启发。

本文的目的不是将端到端训练与其他训练前技术进行比较。相反，我们旨在探索一系列因素对速度和准确性的影响，并寻求两者之间的权衡。

具体：

21.1 Video Encoders

TSN。是一种纯2D-CNN编码器。它独立处理每个帧。
TSM。将时间移位操作与2D卷积相结合，作为视频编码器的基本构建块。移位操作在时间轴上向前移动输入特征映射的一小部分通道，向后移动另一部分通道。它相当于具有恒定参数的时间一维卷积，但不引入计算成本。然后，通过对移位特征进行2D卷积来捕获多帧的时空特征。
I3D。遵循图像识别初始网络设计，但将所有卷积层和池层膨胀为3D对应层。由于涉及时间池化，它在网络的不同阶段以不同的分辨率输出特征图。
SlowFast（SF）。由分别在稀疏和密集采样的视频帧上运行的慢路径和快路径组成。快速通道比慢速通道具有更少的通道。因此，它可以有效地捕获运动信息，并将其逐步融合到慢通道中。继最近的工作之后，迭代应用一维和二维卷积。

21.2 Temporal Action Detection Heads

我们研究了三种时间动作检测头（方法），基于锚、无锚和基于查询。G-TAD、AFSD和TadTR因其最先进的性能而被选为每种类型的代表。在这里，我们简要介绍了他们的框架。
anchor-baseds，G-TAD。将视频视为图，将视频中的所有片段视为其节点。利用这种公式，可以通过这些节点上的图卷积来捕获视频中的上下文信息。这些节点作为潜在动作边界采样，配对节点成为锚。与RoIAlign类似，SGAlign操作旨在提取每个锚点时间区域内的对齐特征。然后，根据对齐的特征，通过几个全连接的层对这些锚进行分类。
anchor-free，AFSD。是一种无锚检测器。受目标检测中无锚方法的启发，它通过预测动作类和到每个帧的动作边界的距离来检测动作。使用该公式，它首先从视频编码器生成具有金字塔特征的粗略动作预测。为了提高检测性能，设计了一个基于显著性的细化模块。它通过边界池操作提取每个预测动作边界周围的显著特征。这些特征用于生成精确的预测。
query-based，TadTR。TadTR将TAD视为直接集预测问题。基于Transformer，它使用Transformer编码器-解码器架构将一小部分学习的动作查询嵌入映射到相应的动作预测。Transformer编码器将来自视频编码器的特征作为输入。它使用稀疏注意机制在时间维度上建模长期依赖性，并捕获全局上下文。解码器通过交叉注意查找与每个查询相关的全局上下文，并预测其边界和动作类。为了获得更精确的边界和置信度分数，它利用了一种分段细化机制，该机制迭代地重新细化每个解码器层中的边界，以及一个动作回归头，该回归头根据最终预测的边界重新计算置信度分数。

21.3 End-to-end Learning

我们将分类器丢弃在每个视频编码器的原始网络中，并修改最后一个全局池层，使其仅执行空间池化。然后将检测头连接到编码器的最后一层，形成统一的网络。该网络直接将视频帧作为输入，并使用每个检测器定义的损失函数进行训练。在训练过程中，梯度同时向后流向头部和视频编码器。通过这种方式，可以同时优化它们，以实现更强的时间动作检测性能。

22 Coarse-Fine Networks(2021)

在本文中，我们介绍了Coarse-Fine Networks，这是一种双流架构，它受益于时间分辨率的不同提取，以学习更好的长期运动视频表示。传统的视频模型以一个（或几个）固定的时间分辨率处理输入，无需任何动态帧选择。然而，我们认为，处理输入的多个时间分辨率，并通过学习估计每个帧的重要性来动态地这样做，可以在很大程度上改善视频表示，特别是在时间活动定位领域。为此，我们提出了：

Grid Pool，一个学习的temporal下采样层来提取粗特征。
Multi-stage Fusion，一个时空注意机制来融合细粒度上下文和粗特征。我们表明，我们的方法在公共数据集（包括字谜）的动作检测方面优于最先进的方法，显著减少了计算和内存占用。

Coarse-Fine Networks以两种不同的时间分辨率处理信息。粗流通过可学习的下采样操作（Grid Pool）学习对信息量最大的帧位置进行采样；而细流处理输入的整个时间段以提取细粒度上下文；两个流之间的连接：多阶段融合，提供细粒度上下文的多个提取级别，并校准到粗帧的时间位置。

在本文中，我们提出了：

一种新方法，允许在模型内对时间帧进行可学习的动态选择。
将此类采样（即时间上的“粗略”）表示与传统的、时间上更“精细”的表示相融合。
我们引入了粗-细网络。提出了一种新的组件，称为时间网格池，以获得更好的粗表示，并引入多阶段融合，以将此类粗表示与传统精细表示最佳结合。我们的网格池学习动态选择信息帧。

动态采样：计算机视觉界一直对信息的选择性处理感兴趣。从可变形卷积到图卷积网络，神经网络的各种核心组件都基于这一思想。最近的多部作品也试图在空间、时间或时空上对输入进行动态采样。

粗精网络探索视频架构如何从时间分辨率和长期时间信息的不同抽取中受益。如图1所示，我们通过在两个流架构中以两种不同的时间分辨率处理信息来实现这一点：粗略和精细。粗流学习（可微地）选择信息量最大的帧位置，本质上执行学习的时间下采样以提取较低的时间分辨率。相反，精细流以原始时间分辨率处理输入，并通过融合机制为粗流提供细粒度上下文。为了提取该上下文信息，精细流总是查看输入片段的整个时间持续时间（稍后与高斯合并），而粗流可以查看较短的片段，也可以查看整个片段，具体取决于推理间隔。

在粗-细网络中，我们解决了两个关键挑战：

如何以较低的时间分辨率有意义地提取信息，
如何有效利用细粒度上下文信息。
首先，为了提取粗信息，我们提出了网格池，这是一种可学习的时间下采样操作，它通过可微过程自适应地对信息量最大的帧位置进行采样。其次，为了有效地使用细粒度流提供的细粒度上下文。
我们引入了多级融合（第3.2节），这是粗流和细流之间的一组横向连接，用于查看细粒度信息的多个抽象级别。

22.1 Grid Pool

网格池层基于非均匀网格位置学习时间下采样操作。通过学习点的重要性，从长度为T的输入特征中对点的αT个数进行微分采样。我们将pi解释为每个帧位置的重要性。由于我们希望在重要性较高的情况下以较低的采样持续时间（即较高的帧速率）进行采样，因此我们构建了 $cdf(1−p_i)$ 用于采样。
这里的直觉是在置信度（即信息量）较高时以较高帧速率采样帧，在置信度较低以较低帧速率采样帧。换句话说，在置信度较高的情况下，插值帧位置之间的步长应较小，反之亦然。由于我们需要相对（非绝对）置信度来捕捉帧的相对重要性，因此我们对这些置信值 $p_i$ 进行非均匀。为了基于置信度值获得一组αT网格位置，我们考虑了累积分布函数 ${cdf(1−p_i)\}_{i=1，···，αT}$ ，这是一个非均匀单调递增函数。基于这些网格位置对网格池层 $X^C$ 的输入进行采样/插值，以获得输出 $\hat{X}^C$ ，同时使其完全可微于反向传播。这个过程可以表示为。
这里，当网格位置为非整数时，相应的采样帧是相邻帧之间的时域插值。我们不在网格池层中执行任何空间采样。
基于非均匀网格的时间插值可能会影响传播特征的时间结构。在测试最终输出之前，应正确地重新调整网络的帧预测，以用于动作检测任务。为此，我们引入了网格unpoling操作，该操作与网格池层学习的网格位置相耦合。它没有任何可学习的参数，只执行前者的逆运算。首先，基于cdf的逆映射计算αT重采样网格位置，在此基础上，对logit进行重采样以获得原始时间结构。我们的想法是在网格池中使用高帧速率的区域以低帧速率重新采样，反之亦然。任何非整数帧位置的时间插值类似于等式2。最后，通过插值均匀地向上采样这些对数，以适应输入的时间分辨率。对于分类任务，网格unpol操作可能没有必要，因为logit的全局池被视为预测。

22.2 Multi-stage Fusion

我们引入了多级融合，即两个流之间的一组横向连接，如图4所示，以融合细流和粗流的上下文。我们在这里考虑了三种主要的设计选择：（i）它应该能够过滤出哪些细粒度信息应该传递给粗流，（ii）它应该有一个校准步骤，根据它们的相对时间位置将精细特征与粗特征正确对齐，以及（iii）它应该能够学习粗流中每个融合位置的细粒度上下文的多个抽象级别，并从中受益。我们的设计试图解决这些方面。
Filtering fine-grained information。首先，为了决定哪些细粒度上下文应该传递给融合过程，在抽象级别 $l_i$ 的精细特征 $X^F_{l_i}$ 与自注意力掩码混合。该掩模是通过轻量头（g）处理精细特征来计算的，该轻量头由point-wise卷积层和sigomid非线性组成。
Fine-to-Coarse correspondence。注意力加权精细特征 $\hat{X}^F_{l_i}$ 仍然需要针对每个粗特征的时间位置进行校准。由于我们的非均匀网格池，粗流和细流不一定处理相同、适当对齐的时间长度，因此我们需要显式计算帧对应。为了进行这种校准，我们使用了一组以每个粗帧位置 $\{μ^C_j\}_{j=1，···，αT}$ 为中心的时间高斯分布，这些分布提取了精细特征的位置相关加权平均值。我们使用αT这样的粗中心高斯，每个时间长度为T’个长度。我们发现，考虑到这些高斯函数的中心和尺度是超参数，而不是使其可学习，可能由于相对简单的训练，可以获得更好的性能。
多阶段融合将细粒度上下文的多个抽象级别提供给粗流。首先，通过自注意力掩码过滤精细流特征。然后，基于以相应粗帧位置为中心的高斯权重，对每个粗帧的这些特征进行校准。最后，对来自多个抽象级别的校准特征进行逐点卷积，以计算比例和移位特征，从而为粗特征提供仿射变换。
特征 $\hat{X}^F_{l_i}$ 仍然对应于精细特征的单个抽象级别 $l_i$ ，其中我们在多个抽象级别（即网络深度）中具有多阶段融合连接。因此，我们允许每个融合连接通过按通道连接（通过最大池调整空间分辨率后）来查看所有抽象级别的特征，并执行逐点（即1×1×1）卷积，以获得每个融合位置的最终比例（ $A_{l_i}$ ）和移位（ $B_{l_i}$ ）特征。

还需要注意的是，以前的所有方法都是从冻结主干中预提取特征，基本上使其成为后期建模技术，要么使用基于图的方法，要么提取长期时间信息。相反，我们的方法允许在网络的中间位置进行特征融合的端到端训练，使其能够仅使用RGB信息学习更好的表示。

我们提出了粗-细网络，这是一种将时间粗表示与精细表示相结合的双流体系结构。我们介绍了时间网格池方法，该方法学习可微选择信息帧，同时丢弃其他帧，以获得粗略表示。我们还引入了多阶段融合，以最佳地结合粗流和细流。

23 Multi-Task TAD(2021)

然而，收集大规模时间检测数据集以确保在现实世界中具有良好的性能是一个繁琐、不切实际和耗时的过程。相应地，我们提出了一种新的改进的时间动作局部化模型，该模型能够更好地利用有限的可用标记数据。

具体来说，我们通过重构可用的标签信息来设计两个辅助任务，然后促进时间动作检测模型的学习。每个任务通过循环原始标注生成其监督信号，并以多任务学习方式与时间动作检测模型联合训练。注意，所提出的方法可以插入任何基于区域建议的时间动作检测模型。

研究人员探索了不同的方法来解决深度学习方法中标记训练数据短缺的问题。在这些方法中，多任务学习（MTL）是最具代表性的一种。MTL通过同时培训多个相关任务来缓解标签短缺问题。其目标是联合训练具有有限监督信息的多个相关任务，以提高每个任务的性能。其有效性已被广泛探讨。随着相关任务数量的增加，MTL能够降低所需标记训练数据量的上限，从而实现更好的泛化。MTL方法可以大致分为两类。

第一类旨在通过优化权重共享结构来最大化任务性能。
而第二类则侧重于基于任务相似性的权重聚类。
这两种方法已广泛应用于计算机视觉任务领域，包括人类重新识别、深度估计和场景分割等。例如，我们可以使用mask R-CNN通过联合训练实例分割任务来提高目标检测的性能。然而，由于分割掩码标签的成本高昂，这种方法的实际效益有限。

在本文中，我们提出了一种新的时间动作检测框架，该框架利用了多任务学习的优势。更具体地说，我们根据广泛使用的监督时间动作检测框架构建了拟议模型，其中提供了基于时间提议的检测器以及分割标签信息。利用提供的有限监督信息，我们构造了两个辅助任务（例如多动作分类和定位置信度估计），用于以多任务学习方式提高时间动作检测的性能。

通过回收给定的有限TAL标记来拥有监督信息。与传统的多任务学习原理不同，我们在这里只关注主要时间动作检测任务的性能。我们通过探索提供的时间分割信息来生成这些辅助任务的基本真实信息，然后我们与这些辅助任务一起训练时间动作检测。

贡献：

为了缓解时间动作检测的标签短缺问题，我们提出了一种新的多任务时间动作检测算法，该算法通过重用时间注释。所提出的方法可以应用于任何基于region proposal的时间动作检测模型。
我们通过回收TAL分割信息构建了两个辅助任务，从而提高了多任务中时间动作定位的性能。

Action Detection。时空动作检测算法提出了在时空内定位动作的方法，这需要大量的人力来产生足够的细粒度标签。大多数现有工作通过跨帧跟踪感兴趣的动作的边界框来开发时空动作检测算法。一些研究人员还试图探索提取动作管的密集轨迹。它们首先生成基于初始静止图像的视频帧分割，然后使用光流和迁移学习对其进行修剪和时间扩展。然后，他们在视频上运行检测器以提取最终的tubes。基于外观的静态信息、运动信息和传感学习的结合使其模型对时间动作定位具有鲁棒性。

共三个任务：

TAL。
多动作分类。
定位置信度估计。

23.1 Pretext Task Design

Multi-Action Classification。我们不是为每个动作实例签署硬标签，而是从视频中随机选取一个快照并为其分配一个软标签，这表示该快照中几个动作的概率。通过这种方式，我们可以生成大量正训练样本，尽管它们的标签信息不如这些GT样本干净。这个过程有类似mixup，在这个过程中，模型是在虚拟样本上训练的，虚拟样本是随机图像对及其标签的线性插值。这些方法能够解决时间动作检测中通常存在的不平衡问题，即每个视频的正实例远少于负实例的情况。
Localisation Confidence Estimation。这个任务预测了置信度估计的概率分布。基于坐标独立的假设，为了简单起见，我们采用单变量高斯分布。
直观地说，辅助任务应该有利于特征学习和预测任务。因此，我们使用辅助任务的输出来细化检测预测。更具体地说，我们将原始检测和多动作分类的输出串联起来，并将结果馈送到具有残余连接的全连接层。
思想与mixup类似。

23.2 Refining

我们认为，在特征提取和预测方面，辅助任务应该提高主任务的性能。在区域提议学习的第一阶段，首先将辅助任务与主任务联合训练，以学习有助于时间动作检测的共享特征。在预测阶段，辅助任务的输出应有助于细化检测的预测结果。例如，区域建议的分类可以提供上下文信息来细化检测的预测结果。在这一部分中，我们将讨论如何在预测阶段细化检测结果。（两次训练！）
用高斯函数来评估proposal的完整性，如果标准方差越接近0，则说明网络越稳定；如果标准均值越接近0，则表示proposal越接近GT。

24 MUSE(2021)

当前TAL的发展通常以单个摄像机捕捉到的动作为目标。然而，野外广泛的事件或动作可能会被多个摄像机在不同位置捕捉为一系列镜头。在本文中，我们提出了一个新的具有挑战性的任务，称为多镜头TAL，并相应地收集了一个称为MUlti-Shot EventS（MUSE）的大规模数据集。MUSES拥有31477个事件实例，总计716个视频小时。MUSE的核心本质是频繁的镜头剪切，每个实例平均19个镜头，每个视频176个镜头，这导致了大量实例内变化。我们的综合评估表明，在IoU=0.5时，时间动作定位的最先进方法仅实现13.1%的mAP。

相比之下，我们的数据集是基于专业编辑处理的戏剧视频，具有频繁的镜头剪切，因此实例内的差异要大得多。

提到的新的baseline模型：

管道我们采用了基于Faster R-CNN的分类提议检测范式。以视频和一组时间建议（参考建议生成的补充材料）为输入，我们的基线方法包括三个步骤：1）特征提取。我们使用I3D[9]网络为输入视频提取1D特征；2）时间聚合。该特征将被转发到一个时间聚合模型中，该模型将在下文中详细介绍，以缓解由镜头剪切引起的实例内变化；3） proposal评估。对于每个方案，通过RoI pooling提取特征表示。分别使用两个分类器来预测提议的类别和完整性。边界回归器也用于调整边界。
Temporal Aggregation。如第3.3节所分析，镜头剪切将导致片段间的较大变化。关键之一是增强单个实例中的特征一致性。为此，我们提出了一个简单而有效的称为时间聚集的模块，以提高每个片段的特征识别能力。
将 $T * C$ 的特征reshape为 $H * W * C$ 。及将一个二维特征reshape为三维特征，通过这种方式，我们可以获得每个多镜头实例的短期（每行内）和长期（跨多行）信息，从而显著减少特征变化。再应用2D的卷积进行特征提取以增加感受野。
此外，由于MUSE中事件和快照的持续时间变化很大，我们采用了分割-变换-合并策略，并构建了一个多分支块来处理比例变化。更准确地说，我们使用K个时间聚合模块，每个模块使用不同大小的卷积核。每个支路的输出通过求和进行融合。由于不同的内核大小，学习的特征集成了不同尺度的时间信息，并且潜在地能够更好地处理不同持续时间的事件。

25 SALAD(2021)

关于机器学习中的自我评估的文献主要关注通过共识框架产生标柱良好的算法，即标注被视为一个问题。然而，我们观察到，学会高的置信度可以表现得像一个强大的规则化，因此，这可能是一个提高performance的机会。准确地说，我们表明，在动作检测框架内使用自评估分数的学习能够改进整个动作定位过程。

（self-assessment）自我评估有助于特征提取、分段回归/评分和相关分段的选择。

自我评估和TAL。在训练时，自我评估可以改进时间段的重新划分、评分和选择，以及通过多任务正则化进行的特征提取。

贡献：

我们可以同时学习高的置信度和回归动作的proposal。
这种联合学习提供了检测的置信度得分，更重要的是，通过帮助找到解决这两项任务的相关特征，提高了检测结果。
它还允许在学习过程中对框架进行自然地剪枝，从而提高性能。

在这项工作中，我们提出了一种基于segment（anchor）的方法，能够准确地回归时间建议。本方法是单阶段的。

因此，今天的机器学习模块不仅必须高度精确，而且必须对典型示例具有鲁棒性，能够处理分布外样本，可以解释，或正确校准。

在这项工作中，我们共同学习生成一个输出，并在此输出中生成一个置信分数（类似于多任务学习）。在回归环节中，这使我们能够利用机会通过校准的正则化效应来改善回归，这与大多数侧重于回归环节中置信度的工作不同。事实上，他们的工作主要考虑的是集成方法，以提供一种意义上的衡量，而不是端到端的自我评估学习。

该网络结构：每个帧（或帧片段）t首先由使用骨干网络的特征向量表示。然后使用双向GRU来产生先前帧的存储器和后续帧的存储器。两个存储器都由三个头管理，这三个头部产生包括时间区间 $[\hat{s}_t,\hat{e}_t]$ 、置信度 $\hat{p}_t$ 和动作类 $\hat{c}_t$ 的proposal。

但本文的主要目的不是此架构，而是segment回归和可信度评估的联合学习，而不是依赖外部模块。自我评估的使用允许在训练期间对框架进行剪枝（或对snippet进行剪枝），并通过使用注意力机制和多任务正则化来改进特征，如图3所示。

自我评估学习的说明。回归段及其置信度与GT一起用于计算损失。在该计算过程中，一些片段被修剪（在图中划掉），而其他片段继续竞争（未划掉）。最后一类被归类为确定或不确定，这取决于他们的tIoU和分数。利用该损失函数，未被剪枝掉的回归边界可以尽可能接近GT，最佳段的置信度优化为增加，而其他段的置信率优化为减少。（即，通过剪枝和调整置信度来提高精度）

25.1 Naive regressionself-assessment

执行回归时，只有一个输出可用：回归值。因此，不可能知道该值的置信度。在分类中，深度网络输出的分数分布在各个类别中，情况并非如此。从这个分布中，可以提取argmax（预测类）和max与第二个max之间的差值，传统上用作置信度。
对于回归，一种解决方案是在后验概率中为方框赋值。我们建议使用双头网络估计回归置信度，一个执行经典回归，另一个估计我们是否可以对该回归值有信心。因此，我们将置信度问题表示为二元分类的形式。
首先，通过添加这样一个头部，系统将能够输出一个置信分数，这是现实生活应用的社会需求。然后，由于多任务调节，第二个头部可以帮助改善回归（在[8]中可以找到这种框架的预先存在的想法，但对基础任务进行自我评估的好处不是他们工作的目的）。
我们的贡献是将这种head应用于行动检测，因为这种head可以用作注意力先验，因此好处更大。此外，因为在自我评估目标中更容易编码动作检测指标的特异性，而不是在回归本身中，因此可以获得更好的性能。
相反，如[52]中所述，自我评估可以很容易地考虑整体行为。通常情况下，它可以考虑一个累加段是否与最小tIoU μ的GT相匹配，以及它是否是该特定GT的所有其他段中最好的。

25.2 Action detection self-assessment

这是一个动态过程，在开始时，所有框架都参与了动作边界的回归。然后，逐渐修剪一些潜在性较差的框架，以便将回归集中在相关的预测上并对其进行改进。此外，自我评估也在不断发展：虽然鼓励非最佳帧的置信度降低，但最佳帧（与tIoU高于μ的基本事实相匹配，并且在相应分段中具有最大置信度）的置信度增加。

在本文中，我们提出了一种新的动作检测算法SALAD，该算法在THUMOS14和ActivityNet1.3数据集上都优于现有技术。这种性能提升是通过将自我评估直接添加到网络学习中来实现的。事实上，这种自我评估允许对frame剪枝（或frame片段），并通过使用注意机制和多任务规则化来改善特征。此外，与仅测量局部性能的回归损失相反，这种自评估允许捕获损失函数中动作检测度量的所有特异性。因此，与通常认为鲁棒性、校准或可解释性是约束的观点相反，我们在学习过程中引入了其中一种约束，以提高性能。

26 AGT(2021)

我们引入了activity图transfomer，这是一种用于时间动作定位的端到端可学习模型，它接收视频作为输入，并直接预测视频中出现的一组动作实例。检测和定位未剪辑视频中的动作实例需要对视频中的多个动作实例进行推理。文献中的主导范例有时提出动作区域或直接产生帧级检测。然而，当动作实例具有非顺序依赖性和/或非线性时间顺序时，视频的顺序处理是有问题的，例如在视频过程中重叠动作实例或动作实例的重新出现。在这项工作中，我们通过将视频视为图（Graph）的非连续实体来捕捉这种非线性时间结构。

由于视频的独特性，对未修剪的人类活动视频进行重新分析以进行动作定位尤其具有挑战性，例如：

overlap（重叠）。动作状态在其时间范围内可能存在重叠，表明实例的非顺序时间顺序。
non-sequential dependencies（非顺序依赖性）。一些动作实例可能具有时间依赖性，但被其他不相关的动作实例和/或无动作持续时间分隔。
re-occurrence（重复出现）。属于同一类别的实例可能在视频过程中出现多次。

主要思想。给定未剪辑的人类活动视频，我们直接预测视频中出现的一组动作实例（标签、开始时间、结束时间）。我们观察到，人类活动视频包含非顺序依赖性（以彩色条表示的GT）。在这项工作中，我们提出了一个activity graph transformer，它通过对图形等视频进行推理来捕获这种非顺序结构。总的来说，网络接收视频并直接推断一组动作场景。网络通过将一组图结构的抽象查询转换为上下文嵌入来实现这一点，然后使用上下文嵌入来提供动作实例的预测。使用分类和回归损失对其进行端到端训练。

现有的时间行动定位任务方法主要分为两种范式。

首先是local-then-global范式，其中视频级预测通过使用序列建模技术（如递归神经网络、时间进化和时间池）对局部（即帧级或片段级）预测进行后处理获得。
第二种是proposal-then-classification范式，它涉及从整个视频中生成一组稀疏的类无关片段提案，然后使用两阶段学习或端到端学习对每个提案的动作类别进行分类。
local-then-global范式没有利用视频中活动提供的全部时间上下文，因为局部预测仅基于限于帧或片段的视觉信息。例如，考虑图1中的示例，这些方法在预测“放汤匙”时会错过“混合意大利面”提供的重要相关信息，或者当实例的时间范围“取滤器”或“打开碗橱”重叠时，可能会产生不精确的预测。
proposal-then-classification范式通过将视频处理为序列来生成提案子集。因此，这些方法在合并时间信息时存在有限的感受野，无法有效捕获非连续时间依赖关系。在行动实例重叠的情况下，这一问题进一步恶化。例如，在图1中的示例中，“打开橱柜”和“关闭橱柜”共享信息，但被其他可能重叠的动作实例分隔，如“取滤器”。由于这种排序，当生成对应于“封闭橱柜”的提案时，这些方法不太可能捕获与“开放橱柜”相关的视觉信息的相关性。此外，这些方法使用启发式算法对提议进行非最大抑制（NMS），当动作实例在其时间范围内变化很大时，可能会导致不精确的定位结果。

因此，这两种方法都按顺序处理视频，以生成直接的局部预测或行动建议，并且当行动实例再次发生、重叠或具有非顺序依赖性时，会出现问题。这些观察结果表明，尽管视频具有帧的线性排序，但对视频的推理不必是顺序的。我们认为，对非线性时间结构建模是对未剪辑的人类活动视频进行有效推理的关键要求。在这项工作中，我们寻求一种时间动作定位模型：（1）捕捉复杂人类活动视频中的时间结构，（2）不依赖于启发式或预测的后处理，（3）端到端训练。

为了捕捉视频中的非线性时序结构，我们将视频视为非序列实体，特别是可学习的图（Graph）形结构。特别是，我们使用encoder-decoder transformer架构将输入视频映射到图形结构的embedding层，该架构使用Graph attention（图注意力）进行操作。然后，最终的前馈网络使用这些嵌入直接预测动作实例。因此，我们提出了一个简化的端到端训练过程，不需要任何启发式。

贡献如下：

我们提出了一种基于的encoder-decoder transformer模型activity graoh transformer，该transformer将视频视为graph，并可进行端到端的训练

图卷积网络（GCN）的进步启发了基于视频的任务的几种最新方法。大多数基于图形的视频方法将输入空间（即视频或导出的视觉信息）表示为图，或将输出空间（即标签）表示为图。相反，我们设计模型的依据是，输入空间（即来自视频的特征）和输出空间（即动作的标签和时间戳）均为TAL任务的图结构。具体而言，我们提出了一种encoder-decoder transformer架构，用于学习输入和输出空间之间的映射。此外，GCN先验地需要与节点和边有关的信息。相反，我们使用自我注意从数据本身学习图形结构（即节点和边）。

26.1 Activity Graph Transformer

如图2所示，Activity Graph Transformer（AGT）由三部分组成：（1）主干网络，用于获得输入视频的紧凑表示；（2）由编码器网络和解码器网络组成的transformer网络，其在图上运行；以及（3）用于最终预测的动作实例（标签、开始时间、结束时间）的预测头。
编码器网络从主干网络接收压缩视频级表示，并将其编码为潜在图表示，称为context graph（上下文图）。解码器网络接收图形结构的抽象查询编码（称为action query graph（动作查询图））作为输入以及上下文图。嵌入该解码器输出的每个节点被馈送到前馈网络中，以获得动作实例的预测。整个AGT网络分别使用动作标签和时间戳的分类和回归损失组合进行端到端训练。

26.2 Transformer Encoder

主干仅提供一系列局部特征，而不包含视频的整体上下文或视频中的时间结构。因此，我们使用一个编码器网络，该网络接收视频级特征作为输入，并将该视频表示编码为一个图（称为上下文图）。直观地说，编码器被设计为使用自注意力模块对局部特征之间的交互进行建模。因此，我们将这些节点之间的交互建模为可学习的边权重。

26.3 Graph-to-Graph Attention

图对图注意模块旨在学习两个不同的图（称为源图和目标图）之间的交互。总体而言，图对图注意力模块对输入视频的潜在表示和动作查询之间的交互进行建模。

26.4 Prediction Heads

解码器网络提供一组嵌入，其中嵌入用作视频中动作实例的潜在表示。此输出图 $y_{L_d}$ 包含 $N_o$ 节点。我们使用这些 $N_o$ 节点嵌入来获得使用预测头的 $N_o$ 个动作实例的预测。预测头由具有ReLU激活的前馈网络（FFN）组成，该网络提供相对于整个视频持续时间归一化的动作实例的开始时间和结束时间。此外，我们使用带有softmax函数的线性层来预测对应于动作实例的分类标签。为此，我们引入了一个额外的类标签∅表示没有动作。因此，这种非最大抑制（通常使用现有方法[7]中的启发式进行）在我们的模型中是可以学习的。

26.5 Loss functions

为了训练整个网络，我们使用优化成对成本函数的匹配器（matcher）模型将预测与GT行动实例对齐。这提供了预测和地面实况行动实例之间的唯一匹配。随后，我们的模型计算对应于这些匹配的预测和地面实况行动实例对的损失，以端到端地训练整个网络。
为了获得这种匹配，我们设计了一个匹配代价函数，并采用匈牙利算法来获得两个集合之间的最佳匹配，如先前工作[49]中所述。
匹配成本函数结合了动作实例的类概率以及预测时间和GT之间的接近度。

27 VSGN(2020)

视频中的时间动作定位（TAL）是一项具有挑战性的任务，特别是由于动作时间尺度的巨大变化。短动作通常在数据中占据主要比例，但在所有当前方法中性能最低。在本文中，我们面对短动作的挑战，提出了一种称为视频自拼接图网络（video self-stitching graph network）（VSGN）的多级跨尺度（multi-level cross-scale solution）解决方案。VSGN中有两个关键组件：视频自拼接（video self-stitching）（VSS）和交叉比例图金字塔网络（cross-scale graph pyramid network）（xGPN）。在VSS中，我们关注短周期视频，并沿时间维度将其放大，以获得更大的尺度。我们在一个输入序列中缝合原始剪辑及其放大副本，以利用两个尺度的互补特性。xGPN组件通过交叉尺度图网络的金字塔进一步利用交叉尺度相关性，每个网络包含一个混合模块，以聚合来自不同尺度以及相同尺度内的特征。我们的VSGN不仅增强了特征表示，还为短动作和短训练样本生成了更多的正的anchor。

与其他使用原始尺度视频或缩小尺度视频的作品不同，在本文中，我们不仅使用原始尺度，还使用放大尺度，以利用它们的互补特性，并相互增强它们的特征表示。

除了增强功能外，我们的VSGN还通过更多的短动作来增强数据集，以减轻学习过程中对长动作的偏见，并使更多的锚（即使是大规模锚）能够预测短动作。

据我们所知，这是首次揭示时间动作定位中的短动作问题。我们提出了一种新的解决方案，利用多级特征的交叉尺度相关性来加强其表示并促进定位。
我们提出了一种新的时间动作定位框架VSGN，该框架具有两个关键组件：视频自拼接（VSS）；交叉比例图金字塔网络（xGPN）。为了有效地进行特征聚合，我们为xGPN中的每一层设计了一个跨尺度图网络，其中包含一个时间分支和一个图分支的混合模块。

YOLOv4中的马赛克图像，将四幅图像拼接成一幅大图像，并裁剪出一个中心区域用于训练。它有助于模型学习不要过分强调大型对象的激活，从而提高小型对象的性能。我们的VSGN的灵感来自马赛克增强，但它沿时间维度缝合不同尺度的相同视频剪辑，而不是不同的视频。

G-TAD打破了对视频片段时间位置的限制，并使用图从不位于时间邻域的片段中聚集特征。它将每个片段建模为节点，将片段相关性建模为边，并应用边卷积来聚合特征。
BC-GNN通过将proposal的边界和proposal内容建模为图神经网络的节点和边。
P-GCN将每个提案视为一个图节点，可以将其与提案方法相结合，以产生更好的检测结果。

与这些方法相比，我们的VSGN以G-TAD的形式在视频片段上构建了一个图，但不同的是，除了对相同尺度的片段进行建模外，VSGN还利用了跨尺度片段之间的相关性，并定义了跨尺度边以打破尺度诅咒。此外，我们的VSGN包含金字塔结构的多级图神经网络，而G-TAD仅使用一个尺度。

提出的视频自拼接图网络（VSGN）的体系结构：

它采用视频序列，并根据开始/结束时间及其类别生成检测到的动作。它有三个组成部分：视频自拼接（VSS）、交叉比例图金字塔网络（xGPN）和评分和定位（SoL）。
VSS包含四个步骤来准备视频序列作为我们的网络输入（红色虚线框，详见图3）。
xGPN由多级编码器和解码器金字塔组成。编码器通过一堆交叉比例图网络（xGN）（黄色梯形区域，详见图4）聚合不同级别的特征；解码器恢复时间分辨率并生成用于检测的多级特征。
SoL包含四个模块，前两个模块预测动作得分和边界，后两个模块生成补充得分和调整边界（蓝框区域）。

27.1 VSGN for Short Actions

视频自拼接（VSS）整体结构。a）为整个视频提取片段级特征。b）长视频被剪切成多个短片段。c）每个视频剪辑沿时间维度放大。d）原始剪辑（绿点）和放大剪辑（橙点）缝合成一个具有间隙的特征序列。
Larger-scale clip。我们建议关注视频的短周期，并沿时间维度放大，以获得更大时间尺度的视频剪辑（图2中的VSS，详细信息请参见第3.2节）。在更大的时间尺度上，它不仅能够通过网络聚合和池保留更多信息，而且还与更容易检测的更大锚关联。
Multi-scale input。放大过程可能不可避免地损害片段中的信息，因此包含原始完整信息的原始视频剪辑也是必要的。为了利用两种尺度的复杂特性，我们设计了一种视频拼接技术，将它们拼接成一个网络输入（图2中的VSS，详情见第3.2节）。这种策略使网络能够在一次forward中处理两个尺度，并且剪辑具有不同尺度的更多正锚定。这也是扩充数据集的有效方法。
Cross-scale correlations。原始剪辑和放大后的剪辑虽然不同，但高度相关，因为它们包含相同的视频内容。如果我们可以利用它们的相关性并在它们的特征之间绘制连接，那么放大片段中受损的信息可以由原始片段纠正，而在合并期间原始片段中丢失的信息可以通过放大片段恢复。为此，我们提出了一种跨尺度图金字塔网络（图2中的xGPN，详细信息请参见第3.3节），该网络不仅聚合了来自同一尺度的特征，还聚合了来自跨尺度的特征。该网络在多个网络级别上逐步增强了两个尺度的特征。

27.2 Video Self-Stitching

概况。视频自拼接（VSS）组件将视频转换为网络的多尺度输入。如图3所示，它获取视频序列，提取片段级特征，如果长度较长，则剪切成多个短片段，沿时间维度放大每个短片段，并将每对原始和放大片段缝合在一起，形成一个序列。请注意，除了使用VSS生成多尺度输入外，我们还直接使用所有原始长视频作为输入，以便检测长动作。
Feature extraction。TSN或I3D。
Video cutting。如果视频长度超过γL，我们需要将其剪切成多个短片段；否则，我们直接使用整个序列而不进行切割。对于训练，我们在一个短剪辑中包含尽可能多的动作，并向内移动剪辑边界，以排除对半剪切的边界动作。如果一个动作的长度大于γL，我们就不会将其包含在视频自拼接阶段。因此，短的片段的长度可能随切割位置而变化。为了推理，我们将长序列切割成长度为γL的固定短片段。
Clip up-scaling。为了获得更大的尺度，我们通过放大策略沿时间维度放大每个短片段，如线性插值。对于短片段，放大比例取决于其自身的比例。具体地说，如果一个短片段包含M个剪接特征，那么它将被放大到长度 $L - G - M$ 、其中G是表示间隙长度的常数（见下一段）。换言之，放大的剪辑将填充网络输入 $F_0$ 中的剩余空间。剪辑越短，其放大的副本将越长。这不仅充分利用了输入空间，还将更多注意力放在了较短的剪辑上。
Self-stitching。然后我们将原始短片段（片段O）和放大片段（片段U）缝合成一个序列。如果我们直接并排连接两个剪辑，就会出现一个问题，即网络很容易将缝合序列误认为是长序列，并倾向于生成跨越两个剪辑的预测。为了解决这个问题，我们设计了一个简单的策略：在两个剪辑之间插入一个间隙，如图3（d）所示。我们只需在间隙中填充零，使网络学会通过识别零来区分长序列和缝合序列。这是一种非常有效的方法（见第4.3节）。

27.3 Cross-Scale Graph Pyramid Network

概况。受计算不同层次的多尺度特征的FPN的启发，我们提出了交叉尺度图金字塔网络（xGPN）。它通过一个temporal分支和图分支的混合模块，在多个网络层次上逐步聚集跨尺度以及同一尺度的特征。如图2所示，我们的xGPN由一个多级编码器金字塔和一个多级解码器金字塔组成，这两个金字塔在每一级通过shortcut连接。每个编码器层包含交叉尺度图网络（xGN），更深的层具有更小的时间尺度；每个解码器层包含一个由解卷积层组成的放大网络，更深的层具有更大的时间尺度。
Cross-scale graph network。xGN模块包含一个temporal分支，用于聚合temporal相邻区域中的特征；以及一个图分支，用于聚集来自尺度内和尺度间位置的特征。然后，它将聚集的特征集中到一个较小的时间尺度中。其结构如图4所示。时间分支包含Conv1d（3，1）1层。在图分支中，我们在剪辑O和剪辑U的所有特征上构建一个图，并应用图边缘（edge）卷积进行特征聚合。
Graph building。边分为以下两类：自由边和交叉缩放边。我们在图4中说明了这两种类型的边。我们将一个节点的K/2边作为自由边，仅根据节点之间的特征相似性确定，而不考虑源剪辑。我们使用负均方误差（MSE）测量两个节点vt和vs之间的特征相似性。只要一个节点在特征相似性方面位于目标节点的前K/2最近邻居中，它就有一条指向目标节点的自由边。由于自由边没有剪裁限制，因此它可以连接比例或交叉比例内的特征。我们使其他K/2边为交叉缩放边，它仅连接来自不同剪辑的节点，这意味着剪辑O中的节点只能与剪辑U中的节点交叉缩放边；反之亦然。给定一个目标节点，我们从满足该条件的节点中选取特征相似度最高的K/2，然后排除那些已经与目标节点具有自由边的节点。这些交叉比例边缘加强了缝合的两个不同比例的剪辑之间的相关性。它使两个尺度能够交换信息，并利用其互补特性相互增强表示。此外，由于它能够从节点的时间邻近区域之外启用边，因此它解决了在插值特征上使用图网络的缩放诅咒（见第2.2节）。
Feature aggregation。对于节点 $f_t^i$ 的所有边缘，我们执行边缘卷积运算，以聚集其所有相关节点的特征。

27.4 Scoring and Localization

如图2的得分和定位组件所示，我们使用四个模块来预测动作位置和得分。在顶部区域，位置预测模块（ $M_{loc}$ ）和分类模块（ $M_{cls}$ ）直接从每个解码器金字塔级别进行粗略预测。在底部区域，边界调整模块（ $M_{adj}$ ）和补充评分模块（ $M_{scr}$ ）进一步改进了顶部两个模块中每个预测段的开始/结束位置和评分。

28 UFA(2020)

训练视频中的时间动作检测需要大量的标记数据，但这种注释收集起来很费钱。将未标记或弱标记的数据合并到训练动作检测模型中有助于减少标记成本。在这项工作中，我们首先介绍了半监督动作检测（SSAD）任务，该任务包含标记和未标记的数据，并分析了所提出的SSAD基线中的不同类型的错误，这些错误直接来自于半监督分类任务。为了缓解SSAD基线中动作不完整（即动作缺失部分）的主要错误，我们进一步利用前景和背景运动之间的“独立性”设计了一个无监督前景注意（unsupervised foreground attention）（UFA）模型。然后，我们将弱标记数据合并到SSAD中，并提出了三级监督的全监督动作检测（OSAD）。信息瓶颈（IB）抑制非动作帧中的场景信息，同时保留动作信息，旨在帮助克服OSAD基线中伴随的动作上下文混淆问题。最后，我们的完整OSAD-IB模型在有限的标记预算下的优势通过对标记、未标记和弱标记数据的最优注释策略进行探索来体现。

不同任务的数据类型。

FSAD仅使用完全标记的视频（白色区域）。
SSAD使用完全标记和未标记的视频（蓝色区域）。
除了这两种数据类型（绿色区域），OSAD还使用弱标记视频。

我们引入了半监督动作检测（SSAD）任务，并通过将三种最先进的半监督学习（SSL）模型（Mean Teacher, MixMatch, FixMatch）合并到完全监督动作检测的骨干网络中，建立了三个SSAD基线。

发现SSAD基线的主要问题是动作不完整性，即动作持续时间的缺失部分。为了防止SSAD基线忽略动作帧，我们借用了以对象为中心的表示的思想，提取出更具区分性的动作表示，基本上由前景对象（人类）来表征。已经有人尝试赋予机器检测显著运动物体的能力。然而，他们要么需要手动注释，要么做出不适合动作视频的假设。在这项工作中，我们建议通过利用前景和背景运动之间的“独立性”，在没有监督的情况下检测前景，即前景运动是自包含的，不受背景运动的影响。具体而言，我们通过最小化未标记数据中前景和背景运动之间的信息减少率来学习注意力。为此，我们提出的无监督前景注意（UFA）模块成功地帮助SSAD模型识别相对完整的动作，而无需额外的注释成本。

此外，我们考虑仅具有视频级别类别标签的弱标记数据，该数据处于完全标记和未标记数据之间的成本-准确性权衡中间。已经证明，弱监督的时间动作检测可以在不太降低性能的情况下节省注释成本。因此，我们进一步将弱标记数据纳入SSAD模型，并形成一个具有三个监督级别的统一框架，称为全监督动作检测（OSAD）。作为OSAD的基线，我们只需为附加的弱标记数据添加视频级分类损失。然而，训练视频级别分类以实现弱动作定位可能会导致动作上下文混淆，即，模型在非动作帧中高度激活，因为它们包含背景场景信息（如游泳池），这是动作类别（如游泳）的高度标志。我们的错误分析（图1）也验证了这种现象，其中OSAD基线具有更高的动作上下文混淆，并错误地将非动作帧识别为动作。为了解决这个问题，我们提出了一种信息瓶颈（IB）方法来过滤从非动作帧中提取的场景信息，同时通过训练动作分类来保留动作信息。具体而言，我们对仅包含场景信息的非动作帧的特征熵进行了正则化，从而显著减少了我们完整的OSAD-IB模型中的动作上下文混淆（图1）。

贡献

提出了SSAD和OSAD任务，以在时间动作检测中利用未标记和弱标记数据，并为它们建立了几个基线模型。
设计一个无监督的前景注意模块（UFA），以缓解SSAD基线中的动作不完整问题。
设计一种信息瓶颈方法（IB），以解决OSAD基线中的动作上下文混淆问题。

请注意，我们丢弃了STPP（feature pyramid）和TAG（temporal actionness grouping (TAG) ），只保留完整性损失以简化算法，而不会对性能造成太大影响。

Semi-supervised Learning。

基于一致性的方法将其自身的输出或其时间平均版本作为“软标签”，并使模型在输入随机或对手增强时生成一致的输出。
FixMatch将伪标签和基于一致性的方法结合到一个简单而有效的算法中。
其他工作提出了不同的正则化，例如，强制线性输出或最小化熵。然而，这些算法均未应用于动作检测问题。

Object-centric Action Understanding。

由于动作主要以前景物体的运动为特征，我们希望深度模型将重点放在前景运动上，以更好地识别。其他工作也验证了以对象为中心表示的优越性。为此，为了在我们的任务中更好地利用未标记数据，我们提出了UFA模块来检测前景。以前的前景检测方法通常需要大量标记数据。最近的一项工作基于同一帧中的前景运动和背景运动相互依赖的假设学习了前景检测器，这可能不适用于动作视频，考虑到背景运动可能通过摄像机运动受到前地面物体的影响。我们考虑了摄像机的运动，并通过检查相邻帧修复了先前假设中的缺陷。

Weakly-supervised Action Detection。

WSAD学习仅使用视频级别分类标签预测行动性得分（提案成为行动的可能性）。流行的WSAD方法可以分为自顶向下或自底向上方法。

自上而下的方法首先训练视频级分类器，然后从时间类激活图（TCAM）中获得正向动作得分。
自下而上的方法直接从原始提案中预测行动性得分，并学习通过平均提案特征和行动性得分加权来对视频进行分类。

在这项工作中，我们采用自底向上的pipeline来训练弱标记数据上的模型。然而，众所周知，当非动作帧也包含类别指示信息时，WSAD方法容易将非动作帧识别为动作（即动作-上下文混淆）。为了解决这个问题，Liu等人试图通过假设上下文剪辑应该是固定的，用硬否定挖掘来分离动作和上下文。Shi等人通过使用生成模型对特征级分布进行建模来分离动作和背景。在这项工作中，我们设计了一个信息瓶颈（IB）来抑制非动作帧中的信息。

28.1 Semi-Supervised Action Detection Baselines

在SSN中，我们在提案级别上训练了分类模块 $h_{cls}$ 和回归模块 $h_{reg}$ ，同时我们还训练了完整性模块 $h_{comp}$ 来预测提案的完整性（由 $c_i∈\{0，1\}$ 表示），指示提案pi是否为完整动作剪辑。如果提案自身跨度的80%以上与动作剪辑重叠，则认为提案不完整（ci=0），
Mean Teacher。优化同一实例的两个不同增强之间的输出一致性。它使用backbone的指数移动平均（EMA）来提取其中一个增强输入的特征。
MixMatch。在输入点之间强制执行线性输出。按照混合匹配方法处理未标记数据，我们首先获得伪标记 $\hat{h}_{*} (p_i)$ 通过锐化K个随机增强输入的平均输出，然后在混合伪标记数据上训练模型。
FixMatch。结合了基于一致性和伪标签的方法。
在所有SSL（半监督）算法中，我们都利用了视频数据的空间和节奏增强。对于空间增强，我们将随机噪声和水平翻转应用于每个方案中的所有帧。我们还设计了三种时间特征：（i）时间重采样：在等式1中，我们通过平均池获得建议特征。在实践中，我们仅对提案中的L帧进行采样，并将其特征的平均值作为有效估计。在时间重采样中，我们对提案中的L帧进行重采样，并将新的平均值作为增强特征。（ii）时序分辨率：我们不是从每个提案中采样L帧，而是采样2L或L/2帧。（iii）时间翻转：视频向后播放。对于Fixmatch中的弱增强，我们只使用空间增强，不使用时间增强。有关增强的评估，请参阅补充资料。

28.2 Unsupervised Foreground Attention

如图1中的错误分析所示，SSAD基线容易遗漏部分动作（动作不完整）。由于动作基本上是由前景对象的移动定义的，因此我们推测，通过更加关注前景，该模型可以更好地识别完整的动作剪辑。此外，在没有额外监督的情况下学习注意力可以更好地利用未标记的数据。因此，我们提出了一个无监督的前场注意（UFA）模块来解决这个问题。

28.3 Omni-Supervised Action Detection with Information Bottleneck

然而，OSAD基线倾向于将非动作帧分类为动作帧（动作上下文混淆），如图1所示。当从弱标记数据学习动作检测时，这个问题很常见。理想情况下，识别模型应基于动作信息（如游泳）对弱标记视频进行分类，这也有利于动作检测任务。然而，该模型倾向于走“捷径”，并学习根据场景信息（如游泳池）对动作进行分类，这会因为将非动作帧与场景误认为动作帧而中断检测。现在的问题是，当只训练分类任务时，我们如何过滤掉场景信息并只保留动作信息？请注意，虽然动作帧同时包含动作和场景信息，但非动作帧仅包含场景部分。因此，我们建议通过惩罚从非动作帧中提取的所有信息来“忘却”场景信息。

29 TSP(2020)

这些特征是从通常为修剪动作分类任务而训练的视频编码器中提取的，使得这些特征不一定适合时间定位。在这项工作中，我们提出了一种新的剪辑特征监督预训练范式，该范式不仅训练分类活动，还考虑了背景剪辑和全局视频信息，以提高时间敏感性。

时间敏感性预训练（Temporally-Sensitive Pretraining）（TSP）。我们通过一种新的监督预训练范式训练视频编码器，使其具有时间敏感性。

从未剪辑的视频中采样固定大小的剪辑，并通过编码器获得局部剪辑特征（蓝色）。
全局视频特征（红色）从未剪辑视频中所有剪辑的局部特征中汇集。
局部和全局特征用于训练编码器执行分类任务-筛选前景剪辑的标签（动作标签）；并判断剪辑是在动作内部还是外部（时间区域）。

贡献：

我们提出了TSP，一种时间敏感的视频编码器监督预训练任务。TSP训练编码器明确区分未剪辑视频中的前景和背景剪辑。
我们通过综合实验表明，使用TSP任务预训练的特征可以显著提高三个视频定位问题的性能。此外，我们还展示了我们的预训练策略在三种编码器架构和两个预训练数据集上的泛化能力。我们还展示了在同一目标问题上训练的多个定位算法的一致性能增益。
我们对我们的功能进行了广泛的分析研究。有趣的是，我们观察到TSP预训练提高了短动作实例的时间动作定位性能。该研究还表明，我们的特征实际上是时间敏感的，可以对背景片段和前景片段进行不同的编码。

29.1 How to Incorporate Temporal Sensitivity

TAC预训练编码器的一个限制性方面是它们仅从正样本（前景/动作剪辑）学习。直觉上，从负样本（背景/无动作剪辑）学习有望提高这些编码器的时间辨别能力。给定一个未剪辑的视频，一个好的定位问题编码器应该能够区分不同动作的语义以及动作与其背景上下文。直观地说，知道剪辑是在动作内部还是外部的剪辑功能可以直接帮助TAL和proposal找到更好的活动/提案边界，并为密集caption找到更好的caption。因此，我们建议对编码器进行预训练，以完成以下任务：（1）对前景剪辑的标签进行分类，（2）对剪辑是在动作内部还是外部进行分类。

29.2 Temporally-Sensitive Pretraining (TSP)

Input data。我们为X分配了两个标签：（1）如果该剪辑来自前景片段，则为动作类标签 $y^c$ ；（2）二元时域标签 $y^r$ ，指示该剪辑来自视频的前景/动作（ $y^r=1$ ）或背景/无动作（ $y^r=0$ ）区域。
Local and global feature encoding。为了克服这一挑战，我们将全局视频特征（GVF）与局部剪辑特征相结合，以更好地学习任务。我们可以将GVF视为决定前景与背景的条件向量。我们在附录中研究了其他GVF池化功能。

30 BSP(2020)

许多视频分析任务需要时间定位以检测内容变化。然而，为这些任务开发的大多数现有模型都是在一般视频动作分类任务上预先训练的。这是因为在未剪辑的视频中对时间边界进行大规模注释非常昂贵。因此，没有合适的数据集能够以对时间界限敏感的方式进行预训练。在本文中，我们首次通过引入一种新的boundary-sensitive pretext（BSP）任务来研究时间定位的模型预训练。我们建议在现有的视频动作分类数据集中合成时间边界，而不是依赖于昂贵的时间边界手动注释。通过定义合成边界的不同方式，BSP可以通过边界类型的分类以自监督的方式简单地进行。这使得视频表示的学习能够更容易地转移到下游时间定位任务中。大量实验表明，所提出的BSP优于现有的基于动作分类的预训练对手，并且在多个时间定位任务上实现了最新的性能。

特别是，第一个关键挑战归结为如何以可扩展且廉价的方式获得具有时间约束信息的大规模训练视频数据。为此，我们介绍了一种简单而有效的方法，用于使用现有动作分类视频数据（例如Kinetics）在大规模生成三种时间边界。更具体地说，我们通过缝合包含不同类的修剪视频、缝合同一类的两个视频片段，或者通过操纵视频实例不同部分的速度，来生成响应视频内容变化的人工时间边界。用于训练视频模型的相关pretext任务使用标准的监督分类学习，其中任务是区分上述时间边界类型。我们的实验表明，这种任务比其他可能的pretext任务（如回归时间边界位置）具有更好的性能，并且将不同的边界类型组合成一个多类分类问题优于孤立的所有二进制分类任务。

贡献：

我们研究了视频中时间定位任务的模型预训练问题，这一问题在很大程度上尚待研究，但对视频分析特别重要。
我们提出了一种可扩展的视频合成方法，可以生成大量具有时间边界信息的视频。这种方法不仅解决了缺乏大量预训练数据的关键挑战，而且便于模型预训练的设计。

Temporal localization tasks。

视频中的Temporal localization包括temporal action localization（TAL）、video grounding和step localization等任务。尽管这些任务有其自身的特殊性，但它们有着相同的目标：识别视频语义内容发生变化的特定时间点。
TAL专注于预测未剪辑视频中动作实例的时间边界和类别。
相反，video grounding通过不依赖一组预定义的动作类别来概括时间动作定位，任务是定位视频中与给定语言查询最匹配的片段。
step localization与instructional videos中复杂任务执行过程中涉及的不同动作相关，例如更换轮胎。instructional videos是经过高度编辑的视听教程，具有美学过渡和剪切。

Temporal localization heads。

video grounding类似于时间动作定位，但需要语言模型。目前的文献也可分为两类。（1）基于提议的方法采用提议和排序pipeline，首先依赖于提议模型，非常类似于时间动作定位，然后根据结果片段与文本查询的相似性对其进行排序。（2）无建议方法直接从多模态融合特征信息回归查询矩的时间边界。
Step localization in instructional videos。该任务对应于完成任务所需的一组步骤的对齐，以文本条目的形式，以及该任务的视频示例。最近，[81]在使用基于动作的提案生成方法时，在多个模型上显示了改进的步骤定位性能。

Self-supervised learning in videos。

虽然当前的temporal localization文献侧重于通过监督学习进行预训练，但自监督学习的快速发展使其成为回避端到端训练的一个有希望的替代方案。其中，大量研究集中于寻找有效的时间相关的pretext任务。一些作品考虑了帧排序，要么通过帧的三元组学习，要么通过排序序列，要么通过区分序列是向前播放还是向后播放。或者，与视频速度相关的pretext任务最近变得很流行。[27]中提出了一种关于这一主题的有效变量，其中剪辑在一组可能的增强中进行一次，同时还以一组可能帧速率中的一个进行采样。然后，pretetx任务是正确分类播放速度和应用的时间增强。另类方法包括预测与运动相关的统计，以及将成功的基于图像的对比学习方法更直接地扩展到视频领域。

给定带有动作类标签的修剪视频数据，我们引入了四个时间边界概念，包括different-class boundary（不同类边界）, same-class boundary（相同类边界）、different-speed boundary（不同速度边界）和same-speed boundary（相同速度边界）。它们在视频合成中都需要零额外注释，因此使我们能够生成具有边界标签的任意数量的视频样本。接下来，我们将描述所提出的边界敏感视频合成方法。

30.1 Boundary-sensitive video synthesis。

Diff-class boundary。此边界定义为来自不同类的两个动作实例之间的边。这是最直观的边界，通常出现在未剪辑的视频中，不同的动作不断发生。
Same-class boundary。作为对差异类边界的补充，它旨在模拟相同操作重复和连续发生的场景。这在未剪辑的视频中经常可以看到，同一动作类的多个不同镜头连续出现。在这种情况下不应用中间帧的模糊转换，因为两个输入视频中的语义内容相似。
Diff-speed boundary。该边界类的动机是观察到内容变化的速度从背景（例如，无动作）到前景（例如，有动作）以及从一个动作实例到另一个动作例子都不同。因此，速度变化夹带了潜在有用的时间边界信息。
Same-speed boundary。这是作为概念完成的非边界类引入的。对于此类，源集中的相同视频在每个视频中的所有帧中使用一致的原始速度。

30.2 Boundary-sensitive pre-training

考虑到第3.2节中生成的边界敏感视频数据，我们现在描述如何将其用于视频模型预训练，以便预训练的模型能够有利于下游任务的时间定位。为了简化和易于采用我们的方法，我们考虑了两种基于合成边界信息的常见监督学习算法。

Pre-training by classification (default choice)。通过将每种类型的合成视频视为一个唯一的类，监督分类是一种直观的预训练方法。即四分类任务。
Pre-training by regression。使用我们的训练数据进行预训练的另一种方法是变化点回归。为了更稳定的学习，我们将地面真值变化点μ转换为一维高斯热图。

30.3 Integration with action classification-based pre-training

我们将我们的方法与基于分类的预训练特征相结合，以增强时间定位下游任务所需的边界感知。考虑了三种结构设计：two-steam（双流）、two-head（双头）和feature distillation（特征蒸馏）。

Two-stream。该设计包括两个并行流，一个用于基于动作分类的预训练，另一个用于我们的边界敏感预训练（图3（a））。为了简单起见，我们对这两种方法使用相同的主干。为了整合它们的信息，在倒数第二层采用特征拼接。
Two-head。与双流设计相比，这是一种更紧凑、更高效的体系结构，除分类层外，所有层共享两个任务（图3（b））。一个隐含的假设是，通过端到端联合训练，这两种类型的特征表示可以在整个特征主干中很好地融合。
Feature distillation。双流或双头网络设计的另一种方法是使用单个网络，并通过施加特征匹配损失来训练它产生与独立网络相同的特征（图3（c））。特别地，假设 $f_v$ 是通过Kinetics监督训练的网络， $f_b$ 是在所提出的自监督管理器中训练的网络。然后我们训练单个网络 $f_s$ 和两个逐点投影层， $h_1$ 和 $h_2$ 。

31 VAN(2020)

这项工作解决了方差感知网络（Variance-Aware Network）（VAN）的时间动作定位问题，即在回归任务的输入和/或输出中使用二阶统计量的DNN。我们首先提出了一种网络（ $VAN_p$ ），当呈现输入的二阶统计量时，即每个样本都有一个均值和一个方差，它在整个网络中传播均值和方差，以提供具有二阶统统的输出。在这个框架中，输入和输出都可以解释为高斯。为此，我们导出可微解析解或合理近似，以在常用神经网络层之间传播。为了训练网络，我们基于GT行动边界周围的预测高斯和高斯之间的KL散度定义了可微损耗，并使用标准反向传播。重要的是， $VAN_p$ 中的方差传播不需要任何额外的参数，在测试期间，也不需要任何其他计算。在动作定位中，输入的均值和方差是在池化运算中计算的，通常用于将任意长的视频带到具有固定维度的向量。其次，我们提出了两种交替公式，用附加参数增加回归网络的第一层（分别是最后一层），以便输入（分别是预测输出）均值和方差。

对于形式为y=f（x）的回归任务，建议的方法与基线的说明，其中 $x=(x_1,x_2,…,x_n)^T$ 是输入特征。

基线网络使用特征x并预测y。
$VAN_o$ 使用相同的特征并预测y，然后将y建模为单变量高斯 $N(y,σ^2)$ , $σ$ 被引入作为额外的可学习参数。
$VAN_i$ 利用上述输入方差作为附加特征，并与基线类似地使用它们。
$VAN_p$ 中，输入特征被建模为单变量高斯， $N(x_i,σ_i^2)$ , $σ_i$ 由池化运算计算。然后在整个网络中传播输入方差和均值，以便以均值和方差的形式在输出中传递概率预测。值得注意的是， $VAN_i$ 需要的参数数量几乎是基线的两倍，而 $VAN_p$ 不需要额外的参数。

在本文中，我们首先提出了一种方差感知网络，我们称之为 $VAN_p$ ，它不仅利用标准一阶矩，即均值，还利用二阶矩，即由标准平均池化计算的输入的相应方差。在所提出的方法中，我们推导了DNN常用层（如线性层和ReLU）输出的均值和方差，作为输入均值和方差的函数。这些推导可以是分析推导，也可以是近似推导。通过这种方式， $VAN_p$ 可以向前传播，输入层的均值和方差一直通过DNN，直到最后一层的输出，在那里我们获得了用于预测动作时间边界位置的均值和方差。在这里，我们定义了由预测均值和方差表示的高斯和在GT预测周围定义的具有小方差的高斯之间的适当可微损失，即两个高斯之间的KL散度。由于所有操作都是可微的，因此误差可以反向传播，网络（VANp）可以端到端的方式进行训练。传播不会引入额外的可训练参数，并且在测试时不需要额外的计算成本。

此外，我们提出了两个附加公式， $VAN_i$ 和 $VAN_o$ ，通过增加相应层的附加参数，分别考虑了输入或输出中的方差。受[27,23]的启发， $VAN_o$ 将latter扩展到动作定位问题。显然， $VAN_i$ 和 $VAN_o$ 需要更多可训练参数，其数量取决于基线网络第一层（分别是最后一层）输入和输出的维数。在我们的例子中， $VAN_i$ 需要的参数是基线的两倍，而 $VAN_o$ 只需要几个。

贡献：

针对动作定位问题，我们提出了三种方差感知概率预测模型；我们是第一个提出在动作定位问题中利用在pooling操作期间通常丢失的特征变化的人。
我们表明，在没有额外参数的情况下，DNN输入的二阶矩可以一直传播到输出层，并且，一旦定义了适当的损耗函数，就可以反向传播，以便以端到端的方式对其进行训练。据我们所知，这是第一个这样做的工作。

通常，后者使用固定大小的输入特征作为输入，该特征通过合并可变长度提案中提取。然而，已经提出了全局池化丢弃信息和一些方法来部分解决这个问题。在[51,45]中，作者要么使用结构化时间金字塔池（STPP），要么使用部分分割时间池化，也就是说，他们在不同的位置和时间段执行池化。然而，虽然时间结构得到更好的保留，但执行了经典的平均池化。Lin等人通过16个点的线性插值构造固定尺寸特征——这完全忽略了除16个时间位置外的所有位置的信息。最后，Chao等人通过使用不同空洞系数的空洞卷积，使用多塔网络以原始分辨率进行滤波，以更好地保持时间结构。

在这项工作中，我们关注两阶段方法。

方差感知网络（ $VAN_p$ ）概述：给定未修剪的视频，提取单元级特征。之后，检测器将TURN生成的建议作为输入，并输出分类分数和两个回归偏移量（开始/结束）；这在黑色固体流（基线）中描述。方差通过方差感知池化计算（在 $VAN_i$ 和 $VAN_p$ 的情况下），或在输出端作为额外的可训练参数引入（在 $VAN_o$ 的情况下）。在前一种情况下，方差（i）通过网络传播，直到其输出，以均值和方差对的形式获得预测——这在红色固体流（ $VAN_p$ ）中描述，或者（ii）连接到均值，并作为输入端标准方式的训练特征（在方差感知池化操作之后）。在测试过程中，通过将细化后的片段反馈给系统以进一步细化边界，以级联方式调整预测的时间边界。每个级联步骤中的所有参数都是共享的。

31.1 Variance Aware Network (VAN)

在本节中，我们介绍了用于动作定位的方差感知网络（VAN）。我们首先简要讨论了我们采用的基线、两阶段方法，其核心是一个具有池化、线性和非线性层的分类/回归网络。接下来，我们提出了在池化层计算均值和方差的拟议方法，并介绍了 $VAN_i$ ，其中在第一层使用额外的可训练参数在输入中使用方差，在最后一层使用额外可训练参数学习输出中的方差。接下来，我们提出了在整个网络中传播均值和方差直到输出的提出proposal的方法，其中我们定义了允许端到端训练（ $VAN_p$ ）的适当回归损失。所提出的方法的概要如图2所示。

Baseline method。提出的方差感知网络（VAN）基于两阶段方法基线。第一阶段网络是一个提案生成网络，将通过滑动窗口方法生成的视频片段作为输入，并从中提取单元级特征。该阶段执行i）二元（类不可知）分类任务（关于段是否描述动作），并为每个输入段分配分类分数，以及ii）调整输入段边界的回归任务。基于分类得分，选择此类片段的排名靠前的列表作为动作建议馈送到第二阶段网络，以执行时间动作定位。除了这些提议之外，我们还使用了一些单元，在实际提议之前和之后，以捕获上下文信息。后者已被证明在动作边界检测任务中非常有用。第二阶段网络将在第一阶段生成的行动建议作为输入，如上所述。在此阶段，我们执行i）输入提案的多类分类，以确定提案所属的行动类，以及ii）调整输入提案时间边界的回归。

31.2 Variance Aware Networks with layer augmentation at input (VANi) or output (VANo)

在本小节中，我们将介绍两个方差感知网络，它们考虑输入（ $VAN_i$ ）或输出（ $VAN_o$ ）中的二阶统计量。让我们用 $x∈R^{d_i}$ 和 $y∈R^{d_o}$ 分别是相应基线网络的输入和输出。

$VAN_i$ 。如第节所述。在3.1中，池层通常用于将任意长度（即任意数量的视频单元）的视频带到固定维数d的特征向量 $x∈R^{d_i}$ 。我们注意到，由于提案的长度从几十个到数千个不等，因此变化幅度接近两个数量级。池化操作自然会导致信息丢失，因为一个bin中的所有值都会减少为一个值。我们不仅通过计算平均值（类似于标准平均池运算），而且通过计算相应的方差，部分补偿了这种信息损失。我们将其称为方差感知池（VAP）层，并在图3中进行了说明。在VAP层之后，特征以均值和方差对的形式出现 $μ_x,σ_x)$ 。
$VAN_o$ 。 $VAN_o$ 在输出中引入了一个额外的头，并提供了一对预测 $μ_y,σ_y)$ ，可以解释为高斯分布的均值和方差。即，每个预测y被定义为单变量高斯 $y∼N(μ_y,σ_y)$ 。在此框架中，预测方差可以解释为相应预测均值的不确定性。为了训练响应网络，定义了适当的可微损耗函数。在本文中，我们使用网络输出处的高斯和在GT标注（动作开始和结束）周围定义的具有小方差的高斯之间的KL散度。
Variance propagation from input to output (VANp)。在本节中，我们将描述一个在整个网络中传播二阶统计信息的网络，即从输入层到输出层。与 $VAN_i$ 一样，我们将池化的输出建模为一组单变量高斯分布，我们知道它们的均值和方差（因此我们唯一地定义了它们）。然后，我们通过各种网络组件传播这些分布（根据其一阶和二阶矩），并在其输出端提出预测，这些预测也是均值和方差对的形式，也是高斯的。我们将该网络称为 $VAN_p$ ，与 $VAN_i$ 和 $VAN_o$ 相比，它不需要额外的可训练参数。为了通过网络传播到最后一层，我们修改了一些典型的DNN构建块，如FC、ReLU和Normalization层，如下所述。至关重要的是，下分支的所有计算不需要网络中额外的可训练参数，但需要额外的激活图来存储方差。
Kullback-Leibler divergence as an uncertainty-aware regression loss。为了定义适当的损失，我们认为GT作用边界也遵循高斯分布，具有已知的平均值，如人工标注给出的，以及我们人为设置为较小值的方差。可以将方差视为表示标注过程引入的不确定性程度。 $t∼N(μ_t,σ_t^2)$ ， $μ_t$ 是GT标记， $σ_t^2$ 设置为0.01。

33 G-TAD(2020)

视频上下文是有效检测动作的关键线索，但目前的工作主要集中在时间上下文，而忽略了语义上下文以及其他重要的上下文属性。在这项工作中，我们提出了一种图卷积网络（GCN）模型，以自适应地将多级语义文本纳入视频特征，并将时间动作检测作为子图定位问题。具体地说，我们将视频片段模拟为图节点，将片段相关关系模拟为边，将与上下文相关的动作模拟为目标子图。以图卷积为基本运算，我们设计了一个称为GCNeXt的GCN块，该块通过聚合其上下文来学习每个节点的特征，并动态更新图中的边。为了局部化每个子图，我们还设计了一个SGAlign层，将每个子图嵌入欧几里德空间。大量实验表明，G-TAD能够在无需额外监督的情况下找到有效的视频上下文，并在两个检测基准上实现了最先进的性能。

视频的图表示。节点：视频片段（视频片段定义为短时间内的连续帧）。边缘：代码段关联。子图：与上下文关联的操作。有4种类型的节点：动作、开始、结束和背景，以彩色点显示。有两种类型的边缘：（1）时间边缘，根据片段的时间顺序预先定义；（2）从节点特征中学习的语义边。

G-TAD中有两个关键设计。首先，受ResNeXt启发的基于GCN的特征提取块GCNext生成了上下文丰富的特征。它对应于Faster R-CNN中骨干网络的CNN块。其次，为了模拟感兴趣区域（RoI）对齐，我们设计了感兴趣子图对齐层SGAlign，为每个子图生成固定大小的表示，并将所有子图嵌入相同的欧几里德空间。最后，我们对每个子图的特征使用分类器来获得检测。

贡献：

我们提出了一种新的基于GCN的视频模型，以充分挖掘视频上下文，实现有效的时间动作检测。使用这种视频GCN表示，我们能够将多级语义上下文自适应地整合到每个片段的特征中。
我们提出了一种新的子图检测框架G-TAD来定位视频图中的动作。G-TAD包括两个主要模块：GCNeXt和SGAlign。GCNeXt在视频图上形成图卷积，利用时间和语义上下文。SGAlign在适合检测的嵌入式空间中重新排列子图特征。

G-TAD使用锚来定义子图，但也结合开始/结束预测来规范训练过程。

G-TAD使用类似于DeepGCN的结构将图卷积应用于动态语义图以及固定时态图。

G-TAD体系结构概述。输入是一系列代码段特征。我们首先使用GCNeXt块提取特征，该块逐渐聚合时间和多级语义上下文。以语义边缘编码的语义上下文是从每一层的特征中动态学习的。然后，我们将提取的特征输入到SGAlign层，其中由一组锚点定义的子图由固定大小的特征表示。最后，定位模块对检测子图进行评分和排序。

33.1 G-TAD Architecture

动作检测框架。我们将片段特征 $X^{(0)}$ 输入到一堆GCNeXt块中，其设计灵感来自ResNeXt，以获得上下文感知特征。每个GCNeXt包含两个图卷积流。一个流在固定的时间邻居上运行，另一个流自适应地将语义上下文聚合为片段特征。这两个流都遵循具有多条卷积路径的拆分变换合并策略（路径数定义为cardinality），以生成更新的图，并将其聚合为一个图作为块输出。在所有b个GCNeXt块的末尾，我们基于预定义的时间锚提取一组子图。
然后，我们使用感兴趣的子图对齐层SGAlign使用特征向量表示每个子图。最后，我们使用多个完全连通的层来预测表示每个子图的特征向量与GT的并集上的交集（IoU）。

33.2 GCNeXt for Context Feature Encoding

我们的基本图形卷积块GCNeXt对视频序列的图形表示进行操作。它使用片段的时间和语义邻居对片段进行编码。

Temporal Edges ( $E_t$ ) 编码视频片段的时间顺序。每个节点 $v_i∈V$ 具有到节点 $v_{i+1}$ 的唯一前向边和到节点 $v_i$ 的唯一后向边。
Semantic Edges ( $E_s$ ) 根据动态边卷积的概念定义的，它根据图节点的特征距离动态构造图节点之间的边。我们的语义边缘的目标是从语义相关的片段中收集信息。我们为G中的每个节点 $v_i$ 定义语义边集 $E_s$ ： $E_s = \{(v_i,v_{n_i(k)})|i ∈ \{1,2,...,L\};k ∈ \{1,2,...K\}\}$ 。这里， $n_i(k)$ 是指节点 $v_i$ 的第k个最近邻居的节点索引。它在节点特征空间中的每个GCNeXt块处动态确定，使我们能够更新在整个网络中本质上携带语义上下文信息的节点。因此， $E_s$ 自适应地改变以表示语义上下文的新级别。
Graph Convolution。使用单层边卷积作为图卷积运算。
Stream Aggregation。

33.3 Sub-Graph Alignment and Localization

Sub-Graph of Interest Alignment (SGAlign)。SGAlign基于GCNeXt特征（左）和语义特征（右）提取子图特征，并将两个子图特征连接为输出。顶部的点表示子图特征。在底部，点代表图形节点，灰线是语义边，橙色高亮区域是子图。请注意，由于每个节点的语义特征是使用其邻居计算的，因此子图特征中的每个条目基本上对应于图中的多个语义相关节点。对于子图 $G_a$ ，我们通过插值和重缩放采样 $τ$ 点（ $τ$ ：对齐量）。并生成子图特征 $y_a∈R^{τC}$ ，其中C是特征维数。通过显式使用语义特征 $y_l$ ，SGAlign在计算每个子图的特征时自适应地聚集语义上下文信息。这在本质上不同于手动扩展锚边界以合并时间上下文的方法，并导致更高的性能。值得一提的是，采样间隔 $s$ 基于子图大小 $d$ 和对齐量 $τ$ ，以确保输出 $z_{a_j}$ 是子图中所有节点的加权和。s
Sub-Graph Localization。对于每个子图 $G_a$ ，我们计算其与 $\Phi$ 中的 $\phi$ 所有GT的联合交集（IoU），并将最大IoU的 $g_c$ 表示为训练目标（GT）。我们在SGAlign层的顶部为每个子图特征应用三个完全连接（FC）层。最后一个FC层有两个输出分数¥ $p_{cls}$ 和 $p_{reg}$ ，分别使用分类和回归损失对其进行训练以匹配 $g_c$ 。

34 PBRNet(2020)

由于动作边界的模糊性，时间动作检测是一项具有挑战性的任务。为了解决这个问题，本文提出了一种端到端渐进边界细化网络（progressive boundary refinement network）（PBR-Net）。PBRNet属于单级检测器家族，配备了三个级联检测模型，用于越来越精确地定位动作边界。具体而言，PBRNet主要包括coarse pyramidal detection（CPD）（粗金字塔检测）, refined pyramidal detection（RPD）（精金字塔检测）, and fine-grained detection（FGD）（细粒度检测）。前两个模块构建两个特征金字塔以形成基于锚的检测，第三个模块探索帧级特征以细化每个动作实例的边界。在细粒度检测模块中，提出了三个帧级分类分支来增强帧级特征并更新动作实例的置信度得分。显然，PBRNet集成了基于锚的方法和帧级方法。我们对提出的PBRNet进行了实验评估，并全面研究了主要组件的影响。结果表明，PBR-Net在两个流行的基准上都达到了最先进的检测性能。

CPD和RPD是基于锚的检测系统，其中使用两个对称特征金字塔来检测不同规模的动作。FGD旨在通过利用帧级特征来细化动作候选的边界。此外，使用具有不同类型的框架级监督的三个分支来丰富框架级特征并更新每个动作实例的分类分数。特别是，一些学习策略（如渐进匹配策略和初步锚丢弃）被用于和渐进学习合作。因此，锚在级联回归的相邻模块之间传递，并融合不同模块的置信度得分进行检索。

贡献：

我们提出了一种端到端时间动作检测网络PBRNet，属于一阶段方法，但配备了三步级联边界细化。
PBRNet主要包含三个主要检测模块，它们结合了基于锚的方法和帧级方法。前两个模块构建两个相互连接的时间金字塔，用于基于锚的两步检测。最后一个模型利用细粒度特征进一步细化边界，并通过帧级预测更新每个锚的分类分数。

34.1 Progressive Boundary Refinement Network

图1说明了拟议的渐进边界再细化网络（PBRNet）的架构，其中特别采用了类似U-net的结构作为一个重要组件。特别是，插入两种类型的融合块（即FBv1和FBv2），以融合不同级别的特征。PBR-Net由三个关键模块以及时空特征提取器组成，即粗金字塔检测、精金字塔检测和细粒度检测。这里，前两个模块在多个尺度上执行基于锚的检测，最后一个模块基于帧级特征完成每个动作候选的细粒度边界细化。这三个模块中使用的功能将逐渐丰富或完善。此外，这三个模块将不断完善前一个模块生成的候选动作。

Feature Extraction。具体来说，我们使用I3D层的最后一个平均池化层之前作为特征提取的主干网络。
Coarse Pyramidal Detection。此处，金字塔低层中的高分辨率特征映射用于检测短动作实例，而低分辨率特征映射则用于检测长动作实例。通过CPD，我们将获得从预设锚中提炼出来的第一级动作候选。然而，在CPD的金字塔特征中中，低层缺乏足够的语义，高层缺乏足够的精细细节，因此第一级候选动作只有粗略的边界。
Refined Pyramidal Detection。为了修正CPD的缺点，我们在RPD中提出了一个更强大的金字塔。特征金字塔逐渐提高时间分辨率，并通过与CPD的特征图合并来丰富特征。
Fine-grained Detection。FGD旨在以更细的粒度细化候选对象。在FGD中，我们使用第二种类型的融合块（即FBv2）来生成帧级特征。第一部分将RPD的最后一个特征图作为输入，然后堆叠三个三维去卷积层，使特征图的时间长度等于输入剪辑。第二部分将原始帧作为输入，然后使用三个卷积层和一个平均池层使其时空形状与第一部分相同。我们将这两个特征映射连接起来进行融合，然后使用卷积层生成最终的帧级特征。frame级分类分支有两个主要功能。首先，辅助帧级监控有助于丰富帧级特征的语义，这将有助于细粒度边界回归。其次，使用帧级分类分数在推理时间内与基于锚的分数进行融合。我们使用可形变的3D卷积层来预测最终边界，其中网络输出是时间偏移。

34.2 Training of PBRNet

Progressive Matching Strategy。匹配策略是确定哪些锚点对应于GT。在这项工作中，我们计算所有动作实例中每个锚的IoU分数。如果锚的最高IoU分数大于预设阈值h，则认为锚是正的，反之亦然。对于阳性样本，具有最高得分的匹配动作实例被用作GT。我们将这种匹配策略分别应用于三个阈值为 $h_{cp}$ 、 $h_{rp}$ 和 $h_{fg}$ 的检测模块。我们将三个模块的IoU阈值设置为不断增加的值，以便可以逐步改进操作。在我们的实现中，使用了 $h_{cp}=0.5$ 、 $h_{rp}=0.6$ 和 $h_{fg}=0.7$ 。多级级联目标检测器提出了类似的想法（Cai和Vasconcelos 2018）。在这里，我们在单镜头框架中采用它。
Preliminary Anchor Discarding。匹配后的背景和前景之间存在严重的不平衡，这将严重影响优化效果。为了缓解这种情况，我们在将锚从一个模块传送到下一个模块之前采取了两个步骤。首先，我们丢弃了一些公认的背景锚。具体来说，我们根据前面模块的预测计算每个锚的背景分数，然后只保留背景分数低于恒定阈值的锚。其次，应用硬实例挖掘来保持前景和背景样本之间可接受的平衡。具体来说，我们只保留具有高损失值的背景锚，以使背景锚和前景锚的数量大致相等。

35 AGCN(2020)

3D卷积神经网络（3D CNN）的最新进展表明，对于未剪辑视频动作检测，3D CNN具有良好的性能，采用了流行的检测框架，该框架严重依赖于时间动作建议生成作为动作检测器和回归器的输入。在实践中，提案之间通常包含很强的内部（intra）和内部间（inter）关系，主要来源于视频动作的时间和空间变化。然而，现有的大多数三维CNN忽略了这些关系，因此存在冗余建议，降低了检测性能和效率。为了解决这个问题，我们提出了一种基于图形注意力的视频动作检测方案3D ConvNet（graph attention based proposal 3D ConvNets）（AGCN-P-3DCNN）。我们提出的图注意由基于内注意的GCN和基于间注意的GCM组成。

我们使用内注意来学习每个动作建议内的内长程依赖性，并更新基于内注意的GCN的节点矩阵。
使用间注意学习不同动作建议之间的相互依赖性，作为基于间注意GCN的邻接矩阵。
然后，我们融合内部和间部注意，同时建模内部长程依赖和间部依赖。另一个贡献是，我们提出了一种简单有效的逐帧分类器，它增强了主干模型的特征表示能力。

每个提议内的内部（intra）关系有助于纠正错误的行动提议，而不同提议间的内部间（inter）关系则有助于调整时间提议的不精确边界。不幸的是，现有的解决方案往往忽略了这种内在关系，因此在很大程度上受到动作边界偏离和检测不准确的影响。

内部（intra）注意机制通过对单个提案内像素的长距离相关性建模，使3D CNN能够学习提案的区别性特征表示。
间部（inter）注意机制学习位置之间的自适应依赖关系，这往往会调整时间建议的不精确边界。

众所周知，在从头开始训练和基于预训练训练的模型的不同训练方法之间，3D CNN的性能存在很大差距。受上述事实的启发，我们建议首先使用逐帧分类器来训练提案3D CNN，然后使用这些经过良好训练的参数来初始化基于图注意力的提案3D CNNs，如图1所示。正确地说，我们定义了一个逐帧分类器来约束主干子网，并训练出具有更强特征建模能力的更精确的三维ConvNet模型。同时，考虑到当前大多数基于提议的动作检测框架只关注提议级优化而忽略了帧级优化，我们将粗粒度（提议级）动作检测器和细粒度（帧级）帧级分类器相结合来优化训练过程。

35.1 The Framework

我们提出的时序动作检测框架称为基于帧分类器约束图注意的prorosal 3D ConvNet（Framewise Classifier Constraint Graph Attention based Proposal 3D ConvNet）（FC-AGCN-P-3DCNNs），主要由四部分组成（主干子网（Backbone subnet）、RPN子网（RPN subnet）、帧分类器子网（Frame-wise Classifier subnet）和动作检测器子网（Action Detector subnet））。
内部（intra）注意力学习图中节点矩阵的每个提案内部的长期相关性，而内部间（inter）注意力学习不同提案之间的相关性，以形成图中的自适应邻接矩阵。然后，我们将特征增强建议Y回归并分类为相应的时间边界和活动类别。

35.2 Attention based Graph Convolutional Network

在实践中，我们基于注意力的图卷积网络模块学习时序动作建议的内部和内部依间赖性，并增强网络的动作检测能力。
GCN。 $Y = A X W$ ，其中 $A$ 是邻接图矩阵。节点矩阵 $X$ 表示提案特征，图1中RPN子网的输出（为简单起见，此处省略了RoI池）， $W$ 表示可学习权重矩阵。如上述等式1所示， $A$ 和 $X$ 通常是给定图的固定值。但是，对于视频动作检测，固定 $A$ 不能表示这些临时动作建议之间的动态依赖关系。受GAT（Busbridge et al.2017）的启发，我们提出了相互关注，以自适应地学习邻接矩阵 $A$ 。同时，一个时序行动提案内的像素可能会相互影响。受非局部操作的启发（Wang et al.2018），我们使用内部注意来学习每个动作建议中的长程依赖性，并更新节点矩阵 $X$ 。在本文中，我们学习不同时序动作建议之间的相互依赖性（基于内部间的注意的GCN）和一个时间动作建议（基于内部注意力的GCN）以及像素之间的内部长程依赖关系。
Intra Attention based GCN。对于内部注意，我们希望了解图中节点矩阵的每个节点的每个动作建议内像素之间的长期依赖关系。 $Y_{intra} = A_{IoU}X_{intra}W_{intra}$ ，其中 $W_{intra}$ 是图卷积网络的可学习参数矩阵， $A_{IoU}$ 记录每两个时间动作建议的联合交集（IoU）。
Inter Attention based GCN。对于inter attention，我们希望学习图中的邻接矩阵，它可以反映提案之间的动态依赖关系。见图。
GCN Fusion。

35.3 Framewise Classifier

在本节中，我们将介绍我们的frame-wise分类器，并描述损失函数的设计。我们的逐帧分类器的目标是在帧级约束特征映射Z并执行帧级分类。因此，我们需要恢复时间维度上的Z长度，因为backbone子网中的3D卷积层和3D池化层已对输入视频剪辑的特征图大小进行了下采样。通常，我们可以使用去卷积层恢复时间长度。然而，通过反卷积进行的上采样将带来大量的不确定性误差，因此训练上采样网络非常困难。由于上述考虑，我们只是沿着Z的时间轴对特征映射Z进行分类，而不是输入视频剪辑的原始时间轴。换句话说，我们提出的逐帧分类器是针对特征映射的。所设计的逐帧分类器简单有效。
如图1所示，我们的逐帧分类器由三个FC层组成。逐帧分类器的输入是特征映射Z。我们的逐帧分类器沿时间维度对特征映射Z进行分类。当Z的时间长度为L时，分类器的批量大小为L。第一个FC层将特征维数从n=C×H×W降低到中间层维数n′，然后第二个FC增强特征学习。第二个FC的输入和输出数相同，n′不变。然后，我们使用第三个FC将Z的特征维度从n转移到指定的类数n′′，其中n′′是相应数据集的活动类别数。接下来，我们使用交叉熵损失优化逐帧分类器训练。

在实践中，我们首先在没有AGCN模块的情况下训练基于frame分类器模型的3D CNN，以获得经过良好训练的模型参数。然后，我们训练同时配备AGCN和帧分类器模块的3D卷积网络。

36 PGCN(2019)

大多数最先进的动作定位系统单独处理每个动作建议，而不在学习过程中明确利用它们之间的关系。然而，提案之间的关系实际上在时序动作检测中起着重要作用，因为一个有意义的行动总是由视频中的多个提案组成。在本文中，我们建议使用图卷积网络（GCN）来利用proposal的关系。首先，我们构造了一个动作建议图，其中每个建议表示为一个节点，两个建议之间的关系表示为一条边。

在这里，我们使用两种类型的关系，

一种用于捕获每个提议的上下文信息。
另一种用于表征不同动作之间的相关性。
然后，我们在图上应用GCN来建模不同提议之间的关系，并学习用于动作分类和定位的强大表示。

为了对提议-提议交互进行建模，

可以采用自注意机制——正如之前在机器翻译和目标检测中所做的那样——来捕捉提议之间的成对相似性。自注意力模块可以通过使用自动学习的聚合权重聚合来自所有其他提案的信息来影响单个提案。然而，由于查询所有提案对的提案数具有二次复杂性（请注意，每个视频可能包含数千个以上的提案），因此该方法在计算上非常昂贵。
相反，图卷积网络（GCN）将卷积从网格状数据（如图像）推广到非网格结构（如社交网络），在机器学习领域受到越来越多的关注。GCN可以通过聚集来自相邻节点的信息来影响每个节点，因此非常适合利用提案之间的关系。更重要的是，与自注意策略不同，应用GCN使我们能够仅从每个提案的局部邻域中收集信息，从而有助于显著降低计算复杂度。

在本文中，我们将提案视为特定图的节点，并利用GCN对提案关系进行建模。受上述讨论的启发，我们通过调查提案之间的两种边来构建图，

包括合并每个提案实例的上下文信息的contextual edges（上下文边）（例如，通过访问图1中的p2和p3来检测p1）。
从附近但不同的提案中查询知识的surrounding edges（周围边）（例如，在图1中查询p4以查找p1）。

贡献：

我们首先探索了视频中时间动作定位的建议-建议关系。
为了对提案之间的交互进行建模，我们通过基于我们的宝贵观察建立边缘来构建提案图，然后应用GCN在提案之间进行消息聚合。

通过采样策略，提出了几种有效训练的尝试，如node-wise方法SAGE、layer-wise方法FastGCN及其layer-dependent variant（层相关变体）AS-GCN。在本文中，考虑到灵活性和可实现性，我们在框架中采用SAGE方法作为采样策略。

36.1 General Scheme of Our Approach

在不丧失普遍性的情况下，我们假设行动建议是通过某些方法事先获得的（例如[52]中的TAG方法）。s
在以下几节中，我们旨在回答两个问题：（1）如何构造一个图来表示提案之间的关系；（2）如何使用GCN学习基于图形的提案表示，并促进行动定位。

36.2 Proposal Graph Construction

Contextual Edges。即根据两个proposal的tIoU来决定是否有边。探索上下文信息对于细化检测边界并最终提高检测精度非常有帮助。在这里，通过我们的上下文边缘，所有重叠的提案自动相互共享上下文信息，这些信息通过图卷积进一步处理。
Surrounding Edges。根据中心位置的重叠比例。上下文边缘连接通常对应于同一动作实例的重叠提议。实际上，不同类别但相邻的动作（包括背景项）也可以相互关联，它们之间的消息传递将有助于彼此的检测。例如，在图1中，背景提案p4将为确定提案p1的行动类别（例如，更可能是体育行动）提供指导。

36.3 Graph Convolution for Action Localization

Adjacency Matrix。邻接矩阵两个节点之间的边的权重计算为这两个节点的特征的余弦相似度。

36.4 Efficient Training by Sampling

典型的提案生成方法通常为每个视频生成数千个提案。将上述图卷积（等式（4））应用于所有提案需要大量计算和内存占用。为了加速GCN的训练，提出了几种基于邻域抽样的方法[7、23、20]。在这里，我们在方法中采用了SAGE方法[20]，因为它具有灵活性。
SAGE方法以自顶向下的方式逐层对每个节点的固定大小邻域进行均匀采样。换言之，第（k-1）层被表示为第k层中节点的采样邻域。在对所有层的所有节点进行采样后，SAGE以自底向上的方式执行信息聚合。这里我们指定聚合函数为等式（4）的采样形式。

37 BMN(2019)

当前的自下而上提案生成方法可以生成具有精确边界的提案，但不能有效生成足够可靠的置信度分数以检索提案。为了解决这些困难，我们引入了边界匹配（Boundary-Matching）（BM）机制来评估密集分布提案的置信度分数，该机制将提案视为起始和结束边界的匹配对，并将所有密集分布的BM对组合到BM置信图中。基于BM机制，我们提出了一种高效的端到端提案生成方法，称为边界匹配网络（BMN），它可以同时生成具有精确时间边界和可靠置信度得分的提案。BMN的两个分支在统一的框架中联合训练。

为了获得高质量的提案，提案生成方法应：

生成具有灵活持续时间和精确边界的提案，以精确、详尽地覆盖GT行动实例。
生成可靠的置信度分数，以便能够正确地重新检索提案。

提案生成方法范式

大多数现有的提案生成方法采用“自顶向下”的方式，以规则间隔生成具有多尺度时间滑动窗口的提案，然后分别或同时评估提案的置信度得分。这些方法的主要缺点是，生成的提案通常在时间上不精确，或者不够灵活，无法涵盖不同持续时间的GT行动实例。
最近，边界敏感网络（Boundary-Sensitive Network）（BSN）[18]采用了“自下而上”的方式，分两个阶段生成提案：（1）定位时间边界并将边界组合为建议，（2）使用构建的建议特征评估每个建议的置信度得分。

BSN有三个主要缺点：

分别对每个提案进行提案特征构建和置信度评估程序，导致效率低下。
在BSN中构造的提议特征过于简单，无法捕获足够的时间上下文。
BSN是多阶段的，但不是一个统一的框架。

我们能否在丰富的背景下同时评估所有提案的可信度？解决这些困难，我们提出了用于密集分布概率置信度评估的边界匹配（BM）机制。在BM机制中，建议被表示为其开始边界和结束边界的匹配对，然后将所有BM对组合为二维BM置信度图，以表示具有连续开始边界和时间持续时间的密集分布建议。因此，我们可以通过BM置信度图同时生成所有提案的置信度得分。proposal使用BM层从时间特征序列生成BM特征图，并使用一系列conv层从BM特征图中获得BM置信图。BM特征图包含每个提案的丰富特征和时间上下文，并提供了利用相邻提案上下文的潜力。

贡献：

我们引入了边界匹配机制来评估密集分布提案的置信度分数，该机制可以很容易地嵌入到网络中。
我们提出了一种高效、有效且端到端的temporal action proposal generation方法边界匹配网络（BMN）。时间边界概率序列和BM置信度图在BMN的两个分支中同时生成，并作为一个统一的框架进行联合训练。

边界匹配网络的框架。在特征提取之后，我们使用BMN同时生成临时边界概率序列和BM置信度图，然后基于边界概率构造建议，并从BM置信度图中获得相应的置信度得分。

(img-wtbn8vSb-1661342728133)(../TAL资料/appendix_img/image-20220814121049695.png)]

37.1 Boundary-Matching Mechanism

在本节中，我们将介绍边界匹配（BM）机制，以生成密集分布提案的置信分数。首先，我们将时间建议φ表示为其开始边界 $t_s$ 和结束边界 $t_e$ 的匹配对。然后，如图2所示，BM机制的目标是生成二维BM置信度图 $M_C$ ，该图由具有不同起始边界和时间持续时间的BM对构成。在BM置信度图中，点 $M_C(i，j)$ 的值表示为提案 $φ_{i,j}$ 的置信度得分，起始边界为 $t_s=t_j$ ，持续时间 $d=t_i$ ，结束边界为 $t_e=t_j+t_i$ 。因此，我们可以通过生成BM置信度图来生成密集分布提案的置信力得分。

Boundary-Matching Layer。BM层的图示。对于每个proposal，我们在采样权重和temporal特征序列之间的T维上进行点积，以生成形状为C×N的BM特征。我们如何从时间特征序列生成二维BM置信度图？在BM机制中，我们引入BM层来生成BM特征映射 $M_F∈R^{C*N*D*T}$ ，从 $S_F \in R^{C*T}$ 的时序特征序列开始，然后使用一系列卷积层构成的 $M_F生$ 成BM置信图 $M_C \in R^{D*T}$ ，其中D是预定义的最大提案持续时间。BM层的目标是在每个建议 $φ_{i,j}$ 的开始边界 $t_s$ 和结束边界 $t_e$ 之间均匀采样 $S_F$ 中的N个点，并获得建议特征 $m^f_{i,j} \in R^{C*N}$ ，其具有丰富上下文。我们可以通过对所有提案同时执行此采样过程来生成BM特征图MF。实现这种特征采样过程有两个困难：（1）如何在非整数点对特征进行采样，（2）如何同时对所有提案的特征进行采样。由于采样掩码权重W对于不同的视频是相同的，并且可以预先生成，因此BM层的推理速度非常快。BM特征图包含每个提案的丰富特征和时间上下文，并提供了利用相邻提案上下文的潜力。
Boundary-Matching Label。在训练期间，我们将BM label图表示为 $G_C \in R_{D×T}$ ， $g^{c}_{i,j}$ 具有相同形状的是建议 $φ_{i,j}$ 和所有GT实例之间的最大IoU。通常，在BM机制中，我们使用BM层从时间特征序列 $S_F$ 高效地生成BM特征映射 $M_F$ ，然后使用一系列卷积层生成BM置信映射 $M_C$ ，该 $M_C$ 在BM标记映射 $G_C$ 的监督下训练。

37.2 Boundary-Matching Network

与BSN的多阶段框架不同，BMN同时生成局部边界概率序列和全局建议置信图，而整个模型在统一框架中训练。如图4所示，BMN模型包含三个模块：基本模块处理输入特征序列，输出特征序列由以下两个模块共享；时间评估模块评估视频中每个位置的开始概率和结束概率，以生成边界概率序列；提案评估模块包含BM层，用于将特征序列转换为BM特征图，并包含一系列3D和2D卷积层，用于生成BM置信图。

Base Module。基本模块的目标是处理输入特征序列，扩展感受野并充当网络主干，为TEM和PEM提供共享特征序列。由于未修剪的视频具有不确定的时间长度，我们采用长度为 $l_ω$ 的长观测来截断长度为 $l_f$ 的未修剪特征序列。我们将观察窗表示为 $ω＝\{t_{ω,s},t_{ω,e},ψ_ω,F_ω\}$ ，其中 $t_{ω,s}$ 和 $t_{ω,e}$ 分别是 $ω$ 的开始时间和结束时间， $ψ_Ω$ 和 $F_ω$ 分别为窗内的标记和特征序列。窗口长度 $l_ω=t_{ω,e}−t_{ω,s}$ 的设置取决于数据集。
Temporal Evaluation Module (TEM)。TEM的目标是评估未剪辑视频中所有temporal location的开始和结束概率。这些边界概率序列用于在后处理期间生成建议。
Proposal Evaluation Module (PEM)。PEM的目标是生成边界匹配（BM）置信图，其中包含密集分布提案的置信分数。为了实现这一点，PEM包含BM层和一系列3d和2d卷积层。

37.3 Training of BMN

在BMN中，TEM学习局部边界上下文和PEM模式全局提议上下文。为了联合学习局部模式和全局模式，利用统一的多任务框架进行优化。本节介绍了BMN的训练细节。

37.4 Inference of BMN

在推理过程中，我们使用BMN生成边界概率序列 $G_S$ 、 $G_E$ 和BM置信图 $M_CC$ 、 $M_CR$ 。为了获得最终结果，我们需要

使用边界概率生成候选提案。
融合边界概率和置信分数以生成最终置信分数。
基于最终置信分数抑制冗余提案。
Candidate Proposals Generation。与BSN类似，我们通过将时间位置与高边界概率相结合来生成候选提案。首先，为了定位高start概率位置，我们记录了所有时间位置 $t_n$ ，其中start $p^s_{t_n}$ （1）高于 $0.5 * ma x （ p ）$ 或（2）为概率峰值，其中 $max（p_s）$ 为该视频的最大start概率。这些候选起始位置被分组为 $BS=\{t_{s,i}\}^{N_S}_{i=1}$ 。我们可以以相同的方式生成结束位置集。
然后，如果其持续时间小于预定义的最大持续时间D，我们将 $B_S$ 中的每个起始位置 $t_s$ 和 $B_E$ 中的结束位置 $t_e$ 作为建议进行匹配。生成的建议 $φ$ 表示为 $φ=(t_s,t_e,p^s_{t_s},p^e_{t_e},p_{cc},p_{cr})$ ，其中， $p^s_{t_s}$ 、 $p^e_{t_e}$ 分别是 $t_s$ 和 $t_e$ 中的开始和结束概率， $p_{cc}$ 、 $p_{cr}$ 是 $t_e−t_s,t_s]$ 中的分类置信分数和回归置信分数分别是BM置信图 $M_{CC}$ 和 $M_{CR}$ 的点。因此，我们可以得到候选提案集 $ψ＝\{φ_i\}^{N_p}_{i=1}$ ，其中Np是候选提案的数量。
分数融合。为了生成更可靠的置信分数，对于每个建议 $φ$ ，我们通过乘法融合其边界概率和置信分数，以生成最终置信分数 $p_f$ 。

38 GTAN(2019)

由于预定时间尺度（anchor）的设计，结果可能存在鲁棒性问题，这忽略了动作的时间结构，限制了检测复杂变化动作的实用性。在本文中，我们建议通过引入高斯核来动态优化每个动作建议的时间尺度来解决该问题。具体而言，我们提出了高斯时间感知网络（Gaussian Temporal Awareness Networks）（GTAN）——一种新的架构，它新颖地将时间结构的利用集成到一个单阶段动作定位框架中。从技术上讲，GTAN通过学习一组高斯核来建模时间结构，每个高斯核对应于特征图中的一个单元。每个高斯核对应于行动建议的特定区间，并且高斯核的混合可以进一步表征具有不同长度的行动建议。此外，每个高斯曲线中的值反映了行动建议本地化的上下文贡献。

典型单阶段动作定位的直觉（上）和我们的GTAN（下）。典型的方法是在每个特征图中固定时间尺度，很少探索动作的时间结构。相反，我们的GTAN通过学习一组高斯核来考虑时间结构。

通常，视频序列中的帧级或剪辑级特征首先聚合为一个特征图，然后设计多个1D时间卷积层，以增加时间感受野的大小并预测动作提议。然而，每个特征图中对应于单元的时间尺度是固定的，使得这种方法无法捕获动作的固有时间结构。因此，在这种情况下，绿框中的一个GT行动建议被检测为三个片段。因此，我们建议通过为每个单元学习高斯核来探索动作的时间结构来缓解该问题，高斯核动态指示动作提议的特定间隔。高斯核的混合甚至可以被分组来描述一个动作，这对于定位不同长度的动作建议更为灵活，如图1底部所示。更重要的是，基于高斯曲线中的权重的特征池化自然涉及到文本信息。

通过深入研究动作的时间结构，我们提出了一种新的高斯时间感知网络（GTAN）架构，用于单阶段动作定位。给定一个视频，使用3D ConvNet作为主干来提取剪辑级特征，并将其顺序合并到特征图中。首先采用两个卷积层加最大池化层来缩短特征映射，增加感受野的时间大小。然后，一系列一维时间卷积层（锚定层）不断缩短特征图，并输出由每个单元（锚定）的特征组成的锚定特征图。在每个锚定层的顶部，为每个单元学习高斯核，以动态预测对应于该单元的动作建议的特定间隔。甚至可以混合多个高斯核来捕获任意长度的行动建议。通过高斯合并，通过聚集上下文单元的特征，通过高斯曲线中的值进行加权，以进行最终行动建议预测，从而升级每个单元的特征。整个架构通过最小化一个分类损失加上两个回归损失（即localization损失和overlap损失）进行端到端优化。

贡献：

是设计了一个单阶段架构GTAN，用于解决视频中的时间动作定位问题。
该解决方案还提出了一个优雅的观点，即如何利用动作的时间结构来检测不同长度的动作，以及如何利用上下文信息来促进时间定位。

38.1 Gaussian Temporal Awareness Networks

我们的高斯时间感知网络（GTAN）架构概述。输入视频通过3D ConvNet编码为一系列剪辑级特征，这些特征被顺序连接为特征图。遵循两个1D卷积层加上一个最大池化层以增加感受野的时间大小。八个1D卷积层级联以生成不同时间分辨率的多个特征图。在每个特征图的顶部，在每个单元上学习高斯核以预测动作建议的特定间隔。此外，将具有高重叠的多个高斯核混合到更大的高斯核中，以检测不同长度的长动作。通过高斯池，通过聚集由高斯曲线中的值加权的上下文单元的特征来生成动作建议。GTAN与行动分类损失加上两个回归损失联合优化，即每个提案的localization损失和overlap损失。
它由两个主要部分组成：一个基本特征网络和一个带高斯核的一维时间卷积层级联。基本特征网络是从连续视频剪辑中提取特征图，这些视频剪辑将被馈送到级联的1D卷积层，以生成不同时间分辨率的多个特征图。对于一个特征图中的每个单元，随着训练的进行，学习高斯核来控制对应于该单元的动作建议的时间尺度。此外，设计了一种高斯核分组算法，将多个重叠度高的高斯核合并为一个较大的高斯核，以捕获任意长度的长动作。具体地说，每个动作预测都是通过聚集由高斯曲线中的值加权的上下文单元的特征来生成的。整个网络通过动作分类损失加上两个回归损失（即定位损失和重叠损失）进行联合优化，分别用于学习每个动作建议的动作类别标签、默认时间边界调整和重叠置信分数。

38.2 Base Feature Network

基本特征网络由三维ConvNet、两个一维卷积层和最大池化层组成。进一步利用基本特征网络的输出生成行动建议。

38.3 Gaussian Kernel Learning

给定基本特征网络的特征图输出，单阶段动作定位的自然方法是堆叠1D时间卷积层（锚定层），以生成分类和边界回归的建议（锚定）。这种在每个锚定层中具有预定时间尺度的结构可以捕获时间间隔与感受野大小很好对齐的动作提议，但是，这给不同长度的提议的检测带来了困难。该设计限制了具有复杂变化的局部动作的实用性。
对于锚定层特征图中的每个单元，学习高斯核以预测对应于该单元的动作建议的特定间隔。形式上，我们表示第j个卷积层 $\{fi\}^{T^j-1}_{i=0} \in R^{T_j*D_j}$ 的特征映射。其中 $1 <= j <= 8$ ， $T_j$ 和 $D_j$ 是特征图的时间长度和特征维度。对于中心位置为t的建议 $P_t^j$ ，我们通过高斯核 $G^j_t$ 利用其时间尺度。 $G^j_t$ 的标准偏差 $σ_t^j$ 通过 $3*D_j$ 特征映射单元上的1D卷积层学习，并且通过sigmoid运算将值限制在范围（0，1）内。与传统的1D卷积锚定层（将时间尺度固定为第j层中的 $\frac{1}{T_j}$ ）相比，我们通过利用每个方案的学习高斯核来使用动态时间尺度来探索具有复杂变化的动作实例。

38.4 Gaussian Kernel Grouping

然而，如果学习到的高斯核彼此跨越并重叠，这可能暗示着以这些高斯核之间的灵活位置为中心的长动作。换句话说，利用这些原始高斯核的中心位置来表示这个长提议可能不合适。为了缓解这个问题，我们尝试生成一组新的高斯核来预测长期行动方案的中心位置和时间尺度。受[45]中时间动作性分组思想的启发，我们针对该目标提出了一种新的高斯核分组算法。

38.5 Gaussian Pooling

通过学习和混合高斯核，我们根据高斯曲线中的值计算特征映射的加权和，并获得聚集特征F。具体而言，给定第j层中心位置t处高斯核 $G^j_t$ 的加权系数 $W_t^j$ ，提案 $P_t^j$ 的聚合特征公式为。。。略，上述高斯池机制本质上考虑了每个行动提案周围的上下文贡献。与捕获视频上下文信息的手动扩展加平均池策略（下图左部分）不同，我们提供了一种优雅的alter-native，可根据重要性自适应学习加权表示（下图右部分）。

在这里插入图片描述

39 BSN(2018)

时间动作建议生成是一个重要但具有挑战性的问题，因为具有丰富动作内容的时间建议对于分析具有长持续时间和高比例无关内容的真实世界视频是必不可少的。这个问题不仅需要生成具有精确时间边界的提议的方法，还需要使用相对较少的提议来检索提议，以覆盖具有高召回率和高重叠率的真实动作实例。为了解决这些困难，我们引入了一种有效的方案生成方法，称为边界敏感网络（Boundary-Sensitive Network）（BSN），它采用“局部到全局”的方式。

在局部，BSN首先定位具有高概率的时间边界，然后直接将这些边界组合为建议。
在全局，利用边界敏感提案功能，BSN通过评估提案是否包含其区域内的动作的置信度来检索提案。

高质量的提议应该具有两个关键属性：

提议可以覆盖具有高召回率和高时间重叠率的GT动作区域。
检索提议，以便使用较少的提议来实现高召回率与高重叠率，从而降低后续步骤的计算成本。

方法概述。给定未剪辑的视频：

我们评估每个时间位置的边界概率和动作概率，并基于边界概率生成提议。
我们评估具有提议级特征的提议的置信度得分，以获得检索到的提议。

为了获得高质量的提案，提案生成方法应生成具有灵活时间持续时间和精确时间边界的提案，然后检索具有可靠置信分数的提案，该分数表示提案包含动作实例的概率。最近的提案生成方法通过视频中具有规则间隔的多个持续时间的滑动时间窗口生成提案，然后训练一个模型来评估生成提案的置信度得分，以进行提案检索，同时还有方法使外部边界重新划分。然而，使用预定义的持续时间和间隔生成的提案可能有一些主要缺点：（1）通常时间上不精确；（2）不够灵活，无法涵盖GT动作实例的可变持续时间，特别是当持续时间范围较大时。

BSN大致流程：

首先，BSN评估视频中每个时间位置的概率，无论其在内部还是外部，是否在GT动作实例的边界，以生成开始、结束和动作概率序列作为局部信息。
其次，BSN通过直接组合具有高开始概率和结束概率的时间位置来生成建议。使用这种自下而上的方式，BSN可以生成具有灵活工期和精确边界的提案。
最后，BSN使用由提案内和提案周围的actionness得分组成的特征，通过评估提案是否包含行动的置信度来检索提案。这些提案级功能提供了全局信息，以便更好地进行评估。

贡献：

我们引入了一种基于“局部到全局”方式的新架构（BSN），以生成高质量的临时行动建议，该架构在局部定位高界概率位置，以获得精确的建议边界，并全局评估建议级别特征，以获得可靠的建议可信度分数，用于检索。
大量实验表明，与其他最先进的提案生成方法相比，我们的方法实现了更高的提案质量，并且可以在类无关情况下中生成质量相对较高的提案。
将我们的方法与现有的动作分类器集成到检测框架中，可以显著提高时间动作检测任务的性能。

我们的方法在两个方面更优：

BSN使用时间卷积来评估概率分数，以更好地捕获时间信息。
BSN中采用的“局部到全局”方式带来了更精确的边界和更好的检索质量。

框架介绍：

双流网络用于在代码段级编码视觉特征。
边界敏感网络的体系结构：时间评估模块处理输入特征序列，评估每个时间位置的开始、结束和动作概率；提案生成模块生成具有高开始和结束概率的提案，并为每个提案构建边界敏感提案（BSP）功能；提案评估模块使用BSP功能评估每个提案的置信度得分。
最后，我们使用soft-NMS算法通过衰减冗余提议的得分来抑制冗余提议。

39.1 Boundary-Sensitive Network

为了通过精确的时间边界和可靠的置信度得分实现高质量的提案，我们采用“局部到全局”的方式生成提案。在BSN中，我们首先生成候选边界位置，然后将这些位置组合为提案，并使用提案级特征评估每个提案的置信度得分。

Network architecture。BSN的体系结构如图2（b）所示，包括三个模块：时间评估、提案生成和提案评估。a）时间评估模块是一个三层时间卷积神经网络，它以两个流特征序列为输入，评估视频中每个时间位置的概率，无论其在内部还是外部，是否在GT动作实例的边界，以分别生成开始、结束和动作概率序列。b）提案生成模块首先将具有高起始概率和结束概率的时间位置组合为候选提案，然后基于行动概率序列为每个候选提案构造边界敏感提案（BSP）特征。c）提案评估模块是一个具有一个隐藏层的多层感知器模型，根据BSP特征评估每个候选提案的置信度。将每个提议的置信度得分和边界概率融合为用于检索的最终置信度得分。
Temporal evaluation module。时态评估模块的目标是评估每个时态位置的开始、结束和动作概率，其中需要三个二元分类器。
Proposal generation module。提案生成模块的目标是生成候选提案并构造相应的提案级特征。我们分两步实现这一目标。首先，我们定位具有高边界概率的时间位置，并将这些位置组合起来形成建议。然后，对于每个提议，我们构造边界敏感提议（BSP）特征。提案生成模块的详细信息：（a）生成建议。首先，为了生成候选边界位置，我们选择具有高边界概率或概率峰值的时间位置。然后，当候选开始和结束位置的持续时间满足条件时，我们将其组合为建议。（b）构造BSP特性。给定提议和行动概率序列，我们可以在提议的开始、中心和结束区域对行动序列进行采样，以构造BSP特征。
Proposal evaluation module。提案评估模块的目标是使用BSP功能评估每个提案的置信度得分，无论提案在其持续时间内是否包含行动实例。我们采用一个简单的多层感知器模型，具有一个隐藏层，如图2（b）所示。

40 R-C3D(2017)

我们引入了一种新的模型，区域卷积3D网络（Region Convolutional 3D Network (R-C3D),）（R-C3D），该模型使用三维全卷积网络对视频流进行编码，然后生成包含活动的候选时间区域，最后将选定区域分类为特定活动。由于propossal和分类管道之间共享卷积特征，因此节省了计算。整个模型进行端到端训练，同时联合优化定位和分类损失。

在本文中，我们提出了一个activity检测模型来解决上述所有问题。我们的区域卷积3D网络（R-C3D）是端到端可训练的，通过联合优化提案生成和活动分类来学习任务相关卷积特征。在Faster R-CNN目标检测方法的推动下，我们计算了完全卷积的3D ConvNet特征，并提出了可能包含活动的时间区域，然后将这些3D区域内的特征合并以预测活动类别（图1）。与滑动窗口模型相比，提案生成阶段过滤掉了许多背景片段，并产生了更高的计算效率。此外，建议是针对预先确定的锚段进行预测的，可以是任意长度，允许检测灵活的活动边界。

为了使用相同的分类网络将可变长度提案分类到特定类别中，我们将2D兴趣区域（RoI）池化扩展到3D，从而为这些提案提取固定长度的特征表示。

贡献：

端到端TAL模型，具有可检测任意长度活动的组合活动提议和分类阶段；
通过在网络的提案生成和分类部分之间共享完全卷积C3D特征，实现快速检测速度（比当前方法快5倍）；

最近，一些方法绕过了穷举滑动窗口搜索以检测任意长度的活动的需要。通过使用RNN或LSTMs网络建模活动的时间演变，并预测每个时间步的活动标签，实现这一点。深度动作建议模型使用LSTM对每个16帧视频块的C3D特征进行编码，并直接回归和分类活动段，而不需要额外的建议生成阶段。与这项工作相比，我们避免了重复出现的层，使用完全卷积的3D ConvNet对大型视频缓冲区进行编码，并使用3D RoI池来实现任意粒度的特征提取，实现了显著更高的精度和速度。[41]中的方法试图通过提出得分分布特征的金字塔来捕获多分辨率下的运动特征。然而，他们的模型不是端到端可训练的，而是依靠手工制作的功能。

由三个组件组成：a）共享3D ConvNet特征提取器、b）temporal提议阶段、c）分类与细化阶段。

为了实现高效计算和端到端训练，建议和分类子网络共享相同的C3D特征图。提案子网预测可能包含活动的可变长度时间段，而分类子网将这些提案分类为特定活动类别或背景，并进一步细化提案段边界。一项关键创新是将Faster R-CNN的2D RoI池化扩展到到3D RoI池化，这允许我们的模型以不同分辨率提取可变长度提案的特征。

40.1 3D Convolutional Feature Hierarchies

我们使用3D ConvNet从给定的输入视频缓冲区中提取丰富的时空特征层次。已经证明，空间和时间特征对于表示视频非常重要，3D ConvNet以分层方式编码丰富的空间和时间特性。

40.2 Temporal Proposal Subnet

为了使模型能够预测可变长度提案，我们将锚定段合并到临时提案子网络中。子网预测与锚定段相关的潜在提案分段，并使用二进制标签指示预测提案是否包含活动。锚段是以L/8均匀分布的时间位置为中心的预定义多尺度窗口。每个时间位置指定K个锚段，每个锚段具有不同的固定比例。因此，锚节段的总数为 $(L /8) * K$ 、相同的K个锚段集存在于不同的时间位置，这确保了提议预测是时间不变的。锚定作为每个时间位置提案的参考活动段，其中最大标度数K取决于数据集。
根据目标检测[21]中的标准实践，如果锚定段1）与某个地面实况活动重叠，且联合交集（IoU）高于0.7，或2）与某一地面实况活动的IoU重叠最高，则我们选择正标签。如果锚与所有地面实况活动的IoU重叠低于0.3，则会给它一个负标签。其他人都没有参加训练。对于方案回归，使用第3.4节中所述的坐标变换，将地GT活动段相对于附近的锚段进行变换。我们以1:1的正/负比对平衡批次进行采样。

40.3 Activity Classification Subnet

类别分类阶段有三个主要功能：1）从前一阶段中选择提案段，2）三维感兴趣区域（3D RoI）合并以提取选定提案的固定大小特征，以及3）基于合并特征对选定提案进行活动分类和边界回归。
提案子网生成的一些活动提案彼此高度重叠，有些活动提案的正面分数较低，表明可信度较低。根据目标检测[5,21]和活动检测[24,39]中的标准实践，我们采用贪婪非最大抑制（NMS）策略来消除高度重叠和低置信提议。NMS阈值设置为0.7。
3D RoI池的输出被馈送到一系列两个完全连接的层。这里，通过分类层将提案分类为活动类别，并通过回归层给出这些提案的优化开始-结束时间。分类和回归层也是两个独立的完全连接层，对于这两个层，输入来自上述完全连接层（在3D RoI池层之后）。

40.4 Optimization

在我们的R-C3D模型中，上述损失函数适用于时间建议子网和活动分类子网。
在提案子网中，二进制分类损失 $L_{cls}$ 预测提案是否包含活动，回归损失 $L_{reg}$ 优化提案与地面实况之间的相对位移。在建议子网中，损失与活动类别无关。
对于活动分类子网，多类别分类损失 $L_{cls}$ 预测了提案的特定活动类别，类别数为活动数加上背景。回归损失 $L_{reg}$ 优化了活动和GT之间的相对位移。两个子网的所有四个loss都被联合优化。

40.5 Prediction

R-C3D中的TAL预测包括两个步骤。a）首先，提案子网生成候选提案，并预测每个提案的开始-结束时间偏移以及提案得分。然后通过阈值为0.7的NMS细化建议。b）NMS后，将选定的建议馈送到分类网络，以分类为特定活动类别，并通过回归层进一步细化预测建议的活动边界。建议子网和分类子网中的边界预测均采用中心点相对位移和线段长度的形式。为了获得预测提案或活动的开始时间和结束时间，对等式2进行逆坐标变换。
R-C3D接受可变长度的输入视频。然而，为了利用快速深度学习库中的向量化实现，我们用最后一帧填充短视频的最后几帧，并将长视频分解为缓冲区（仅受内存限制）。将阈值较低（比mAP评估阈值小0.1）的NMS应用于预测活动，以获得最终活动预测。

41 TURN（2017）

我们提出了一种新的时间单位回归网络（Temporal Unit Regression Network）（TURN）模型。TURN有两个显著方面：（1）TURN联合预测行动建议，并通过时间坐标回归重新细化时间边界；（2）单元特征重用实现了快速计算：长时间未修剪的视频被分解为视频单元，这些视频单元被重用为节奏时序建议的基本构建块。

从长时间未剪辑视频生成的长时间动作建议首先分解为短（例如16或32帧）视频单元，作为基本处理块。对于每个单元，我们使用现成的模型（C3D和双流CNN模型）提取单元级视觉特征来表示视频单元。来自一组连续单元（称为片段）的特征被合并以创建片段特征。使用多个时间比例创建剪辑金字塔。为了提供时间上下文，将来自内部和周围单元的剪辑级特征连接起来。然后将每个剪辑视为提案候选，然后依次输出一个置信分数，指示它是否为动作实例。为了更好地估计动作边界，TURN为剪辑中动作的开始时间和结束时间输出两个回归偏移。然后应用非最大抑制（NMS）来移除冗余提议。

贡献：

我们提出了一种使用时间坐标回归生成时间动作建议的新架构。
我们提出的方法实现了高效率（>800fps），并且大大优于以前的最新方法。
我们展示了在没有数据集特定微调的情况下，在不同动作数据集上最先进的翻转泛化性能。
我们提出了一种新的指标AR-F来评估TAP的性能，并通过定量分析将AR-F与AR-AN和AR-N进行比较。

时间单位回归网络（TURN）的体系结构。将长视频分解为短视频单元，并为每个单元计算CNN特征。来自一组连续单元（称为片段）的特征被合并以创建片段特征。多个时间尺度用于在定位单元处创建剪辑棱锥体（特征金字塔）。TURN将剪辑作为输入，并输出一个置信分数，指示它是否为动作实例，以及两个开始和结束时间的回归偏移，以优化时间动作边界。

41.1 Video Unit Processing

如前所述，视频提案生成的大规模性质要求解决方案在计算上高效。因此，应避免重复提取同一窗口或重叠窗口的视觉特征。为了实现这一点，我们在框架中使用视频单元作为基本处理单元。单元彼此不重叠。

41.2 Clip Pyramid Modeling

内部特征和上下文特征通过函数P从单元特征中分别合并。剪辑的最终特征 $f_c$ 是上下文特征和内部特征的串联； $f_c$ 由下式给出。我们通过在每个单元位置（即锚单元）构建窗口金字塔来扫描未剪辑的视频。剪辑金字塔p由具有不同时间分辨率的时间窗口组成，请注意，尽管多分辨率剪辑具有时间重叠，但剪辑级特征是从单位级特征计算的，单位级特征只计算一次。

41.3 Unit-level Temporal Coordinate Regression

时间坐标回归背后的直觉是，人类可以推断一个动作实例（如打篮球、挥杆高尔夫）的大致开始和结束时间，而无需观察整个实例。同样，神经网络也可以推断时间边界。具体地说，我们设计了一个单元回归模型，该模型将剪辑级别表示 $f_c$ 作为输入，并具有两个兄弟输出层。第一个输出一个置信分数，指示输入剪辑是否为动作实例。第二个输出时间坐标回归偏移。
在我们的坐标回归模型中有两个突出的方面。a）首先，我们采用单元级坐标回归，而不是在帧级回归时间坐标。由于提取基本单位级特征以对 $n_u$ 帧进行编码，该特征可能不足以在帧级回归坐标。与帧级回归相比，单元级坐标回归更容易学习，更有效。b）其次，与空间边界框回归不同，我们不使用坐标参数化。我们直接回归开始单位坐标和结束单位坐标的偏移量。原因是，由于摄像机投影，对象可以在图像中重新缩放，因此应首先将边界框坐标归一化为某些标准比例。然而，动作的时间跨度无法在视频中轻松地重新缩放。

41.4 Loss Function

对于训练回合，我们为每个剪辑（在每个锚单元生成）分配一个二进制类标签（是否执行动作）。如果：（1）在联合上具有最高时间交集（tIoU）的窗口剪辑与地面真值剪辑重叠，则为剪辑分配正标签；或（2）与任何接地真值剪辑相比，窗口剪辑的tIoU大于0.5。请注意，单个地面实况剪辑可能会将正标签指定给多个窗口剪辑。负标签分配给tIoU等于0.0（即无重叠）的非正剪辑。

42 S-CNN(2016)