2022-CVPR-Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization
用于弱监督时间动作定位的细粒度时间对比学习
摘要
我们针对弱监督动作定位(WSAL)的任务,其中在模型训练期间只有视频级动作标签可用。尽管最近取得了进展,但现有方法主要采用分类定位范式,忽视了视频序列之间富有成效的细粒度时间差异,因此在分类学习和分类到定位适应方面存在严重的歧义。本文认为,通过上下文比较序列到序列的区别来学习在 WSAL 中提供了基本的归纳偏差,并有助于识别连贯的动作实例。具体来说,在可微动态规划公式下,设计了两个互补的对比目标,包括细粒度序列距离(FSD)对比
和最长公共子序列(LCS)对比
,其中第一个通过使用匹配、插入和删除运算符考虑各种动作 / 背景建议的关系,第二个挖掘两个视频之间的最长公共子序列。两个对比模块可以相互增强,共同享受区分动作背景分离和缓解分类与定位之间的任务差距的优点。大量实验表明,我们的方法在两个流行的基准测试中实现了最先进的性能。我们的代码可在 https://github.com/MengyuanChen21/CVPR2022-FTCL 获取。
1. 引言
动作定位是计算机视觉中最基本的任务之一,其目的是在未修剪的视频中定位不同动作的开始和结束时间戳 [41、63、67、75]。在过去的几年里,在全监督的情况下,性能经历了惊人的飙升。然而,收集和注释精确的框架信息是一个瓶颈,因此限制了真实世界场景的完全监督框架的可扩展性。因此,已经探索了弱监督动作定位(WSAL)[26、27、56、69],其中只有视频级别的类别标签可用。
迄今为止,在文献中,当前的方法主要采用分类定位范式 [54、57、65、68],它将每个输入视频分成一系列固定大小的非重叠片段,旨在生成时间类激活序列(CAS)[56、71]。具体来说,如图 1 所示,通过优化视频级分类损失,大多数现有 WSAL 方法采用多实例学习(MIL)公式 [45] 和注意力机制 [56] 来训练模型以分配具有不同类激活的片段。最终的动作定位结果是通过阈值化和合并这些激活来推断的。为了提高学习 CAS 的准确性,已经提出了各种策略,例如不确定性建模 [69]、协作学习 [26、27]、动作单元记忆 [42] 和因果分析 [37],这些策略都取得了很好的性能。
尽管取得了重大进展,但由于在时间维度上缺乏细粒度的逐帧注释,上述学习流程仍然存在严重的定位歧义,这极大地阻碍了分类定位范式的 WSAL 性能。具体来说,歧义有两个方面:(1)在弱监督环境中没有足够的注释,学习到的分类器本身就没有足够的辨别力和鲁棒性,导致动作背景分离困难。(2)由于分类和定位之间存在很大的任务差距,学习到的分类器通常关注易于区分的片段,而忽略那些在定位中不突出的片段。因此,局部时间序列通常是不完整和不精确的。
为了减轻上述歧义,我们认为视频自然地提供了丰富的时间结构来源和改进弱监督学习的额外约束。如图 2 所示,动作视频通常包括一系列细粒度片段,而不同的动作 / 背景实例具有相关且细粒度的时间区别。例如,给定一对来自同-动作类别但在不同场景中捕获的视频,两个视频之间存在潜在的时间关联。考虑到这一点,一个关键的考虑因素是利用这种时间差异来改进 WSAL 中的表示学习。然而,当精心比较两个视频时,并不能保证它们可以直接对齐。最近,动态时间规整(DTW)[2、55] 被提出来解决各种视频分析任务中的错位问题,例如动作分类 [25]、小样本学习 [7]、动作分割和视频摘要 [9、10]。DTW 根据动态规划的最佳对齐计算两个视频之间的差异。然而,上述方法要么假设视频被修剪 [7、25],要么需要额外的监督 [9、10],例如行动命令,这阻碍了在 WSAL 中直接使用 DTW。
在本文中,为了解决上述问题,我们提出了一种用于弱监督时间动作定位的新型细粒度时间对比学习(FTCL)框架。通过捕捉不同视频序列的独特时间动态,FTCL 专注于通过利用端到端可微分动态规划目标来优化视频之间的结构和细粒度片段关系,并从结构关系中获取损失。具体来说,(1)为了提高动作—背景分离的稳健性,我们通过设计改进的可区分编辑距离测量来对比从不同动作 / 背景实例对计算的细粒度序列距离(FSD)。该度量可以通过计算将一个序列转换为另一个序列所需的最小成本来评估两个序列在结构上是否相似。(2)为了缩小分类和定位之间的任务差距,我们旨在对比包含相同动作的两个未修剪视频之间挖掘的最长公共子序列(LCS)。来自同一类别的不同视频序列可以通过优化 LCS 为探索完整的动作实例提供互补线索。因此,不同视频序列之间的 LCS 学习提高了预测动作实例的连贯性。最后,通过对比 FSD 和 LCS,以端到端的方式构建了一个统一的框架,同时所提出的 FTCL 策略可以无缝集成到任何现有的 WSAL 方法中。
本文的主要贡献有三方面:
- 根据上述分析,我们认为通过上下文对比细粒度时间区分来定位动作在 WSAL 中提供了基本的归纳偏差。因此,我们为稳健的 WSAL 引入了第一个有区别的序列到序列比较框架,以解决缺乏帧注释的问题,能够利用细粒度的时间差异。
- 设计了一个统一且可区分的动态规划公式,包括细粒度序列距离学习和最长公共子序列挖掘,共同享有(1)判别动作-背景分离和 (2) 缓解分类和定位之间的任务差距的优点。
- 两个流行基准的大量实验结果表明,所提出的 FTCL 算法表现良好。请注意,所提出的策略与模型无关且是非侵入性的,因此可以对现有方法起到补充作用,以持续提升动作定位性能。
2. 相关工作
全监督时间动作定位(TAL)。与传统的视频理解任务 [8、17、19、20、23] 相比,TAL 旨在对未修剪视频中的每个活动实例进行分类并预测其准确的时间位置。现有的 TAL 方法大致可分为两类:两阶段方法 [11、13、61、63、66、73、75] 和一阶段方法 [4、34、35、41、58、64、67]。对于前者,首先生成动作建议,然后将其输入分类器。该管道主要侧重于提高提案的质量 [11、61、75] 和分类器的稳健性 [63、73]。相反,单阶段方法同时预测动作位置和类别。SS-TAD [4] 利用递归神经网络联合回归时间边界和动作标签。Lin 等人 [34] 以从粗到细的方式引入了无锚框架。尽管上述模型取得了显着的性能,但完全监督的设置限制了它们在现实世界中的可扩展性和实用性 [18、21、22]。
弱监督动作定位。为了克服上述限制,WSAL 近年来通过利用不同类型的监督引起了极大的关注,例如网络视频 [16]、动作命令 [3]、单帧注释 [31、44] 和视频级类别标签 [36、52、65]。在这些弱监督中,由于成本低,最后一种是最常用的。UntrimmedNet [65] 是第一个通过相关片段选择模块为 WSAL 使用视频级类别标签的作品。目前,大多数现有方法可以大致分为三类,即基于注意力的方法 [26、26、39、42、49、56、57、68],基于 MIL 的方法 [32、43、45、48、54],以及基于擦除的方法 [62、72、74]。基于注意力的方法旨在选择高激活分数的片段并抑制背景片段。ACM-Net [56] 通过同时有效地考虑动作实例、上下文和背景信息来研究三分支注意力模块。基于 MIL 的管道将整个视频视为一个包,并利用 top-k 操作来选择正实例。W-TALC [54] 引入了协同活动关系损失来模拟类间和类内信息。基于擦除的方法,例如 Hide-and-Seek [62],通常会尝试在训练期间擦除输入片段,以突出显示辨别力较低的片段。
请注意,大多数现有方法只考虑了视频级别的监督,而忽略了视频之间细粒度的时间差异,并且很难从片段对比的判别学习中获益。尽管一些方法研究了不同类型的对比正则化,例如 CoLA [71] 中的硬片段对比,但它们通过仅考虑视频级信息 [30、50、54] 或忽略细粒度时间结构 [49、53、 71] 来进行对比。据我们所知,我们是第一个将细粒度时间区别的对比学习引入 WSAL 任务的人。实验结果表明,所提出的 FTCL 学习了判别表示,从而促进了动作定位。
视频理解的动态规划。最近的进展表明,学习离散操作的连续松弛(例如,动态规划)可以有益于视频表示学习 [7、9、10、25]。一个流行的框架是采用序列比对作为代理任务,然后使用动态时间扭曲(DTW)来寻找最佳比对 [2、6、12、14、15、46、55]。例如,基于一种新颖的概率路径查找视图,Hadji 等人 [25] 通过利用可微 DTW 为视频表示学习设计了对比和循环一致性目标。Chang 等人 [10] 提出了判别原型 DTW 来学习用于时间动作识别的类特定原型。然而,上述动态规划策略要么假设视频被修剪 [7、25],要么需要额外的监督 [9、10],例如动作命令,因此不能应用于 WSAL 任务。与上述方法不同,本文提出利用细粒度序列距离和最长公共子序列对比来区分前景-背景分离和鲁棒的分类到定位自适应。
3. 我们的方法
在这项工作中,我们描述了我们基于细粒度时间对比学习(FTCL)的 WSAL 方法。如图 3 所示,给定一组视频序列对,我们的训练目标是学习应用于每个片段的嵌入函数。我们首先采用特征提取器来获取每个片段的外观(RGB)和运动(光流)特征(第 3.1 节)。然后,在可微动态规划公式下,设计了两个互补的对比目标来学习细粒度时间差异,包括细粒度序列距离(FSD)对比(第 3.2 节)和最长公共子序列(LCS)对比(第 3.3 节)。最后,整个框架是端到端学习的(第 3.4 节),可以共同实现判别动作背景分离,缓解分类和定位之间的任务差距。
3.1. 注释和准备工作
给定一个未修剪的视频 X \mathbf{X} X 及其真实标签 y ∈ R C y\in\mathbb{R}^C y∈RC,其中 C C C 是动作类别的数量。如果视频中存在第 i i i 个动作类,则 y i = 1 \mathbf{y}_i=1 yi=1,否则 y i = 0 \mathbf{y}_i=0 yi=0。对于视频,我们将其分成不重叠的 T T T 个片段并应用特征提取器来获得片段特征 X = [ x 1 , . . . , x i , . . . , x T ] ∈ R D × T \mathbf{X}=[x_1,...,x_i,...,x_T]\in\mathbb{R}^{D\times T} X=[x1,...,xi,...,xT]∈RD×T,其中 D D D 是特征维度,每个片段有 16 帧。在本文中,为了公平比较,我们遵循以前的方法 [50、54、56、71],通过使用在 Kinetics 数据集上预训练的 I3D 网络 [8] 从 RGB 和光流中提取特征。之后,将两种类型的特征连接在一起,然后输入到嵌入模块中,例如卷积层 [56],用于生成 X \mathbf{X} X。WSAL 的目标是学习一个模型,该模型同时对一个模型中的所有动作实例进行本地化和分类,时间戳为 ( t s , t e , c , ϕ ) \left(t_s,\ t_e,\ c,\ \phi\right) (ts, te, c, ϕ) 的视频,其中 t s , t e , c t_s,\ t_e,\ c ts, te, c 和 ϕ \phi ϕ 分别表示开始时间、结束时间、预测动作类别和动作提议的置信度分数。
目前,现有的主流方法主要采用分类本地化框架,该框架首先学习将片段级特征聚合到视频级嵌入中的重要性分数,然后使用视频级标签进行动作分类:
其中 α t = f α ( x t ) \alpha_t=f_\alpha\left(\mathbf{x}_t\right) αt=fα(xt) 是学习到的重要性分数。将生成的视频级特征进一步送入分类器,得到预测结果 y ~ = f c l s ( x ˉ ) \widetilde{\mathbf{y}}=f_{cls}\left(\bar{x}\right) y =fcls(xˉ)。模型训练后, f α ( ⋅ ) f_\alpha\left(\cdot\right) fα(⋅) 和 f c l s ( ⋅ ) f_{cls}\left(\cdot\right) fcls(⋅) 用于推断测试视频的片段级类激活序列(CAS)。为了学习这两个功能,可以应用各种策略,例如多注意力学习 [56] 和模态协作学习 [26]。
3.2. 通过 FSD 对比的歧视行为背景分离
为了在上述分类定位框架中学习有区别的动作背景分离,一些现有方法通过使用全局视频特征 [30、50、54] 或仅考虑视频内对比度而不考虑时间建模来执行对比学习 [49、53、71]。然而,这些模型忽略了视频之间细粒度的时间差异,导致分类的判别能力不足。
在这项工作中,我们建议以细粒度的方式在时间上对比两个视频序列。现有方法通常通过测量两个序列的全局特征表示之间的向量距离来计算两个序列的相似度。与这种匹配策略不同的是,如图 3 左侧所示,我们希望通过评估将一个序列转换为另一个序列所需的最小成本来确定两个序列是否在结构上相似。天真的想法是穷举比较所有可能的变换,这是 NP 难的。一个快速的解决方案是利用可求解的动态规划技术,其中子问题可以递归地嵌套在更大的问题中。在这里,受计算语言学和计算机科学中广泛使用的编辑距离 [51] 的启发,我们设计了可区分的匹配、插入和删除运算符,用于序列到序列的相似性计算。具体来说,通过学习的 CAS,我们可以生成各种动作 / 背景提议,其中动作提议 U \mathbf{U} U 包含具有高动作激活的片段,而背景提议 V \mathbf{V} V 恰好相反。对于长度为 M M M 和 N N N 的两个提议序列, U = [ u 1 , . . . , u i , . . . , u M ] ∈ R D × M \mathbf{U}=[\mathbf{u}_1,\ ...,\ \mathbf{u}_i,\ ...,\ \mathbf{u}_M]\in\mathbb{R}^{D\times M} U=[u1, ..., ui, ..., uM]∈RD×M 并且 V = [ v 1 , . . . , v i , . . . , v M ] ∈ R D × N \mathbf{V}=[\mathbf{v}_1,\ ...,\ \mathbf{v}_i,\ ...,\ \mathbf{v}_M]\in\mathbb{R}^{D\times N} V=[v1, ..., vi, ..., vM]∈RD×N,它们的相似性通过以下递归来评估:
其中子序列相似度得分 S ( i , j ) \mathbf{S}\left(i,\ j\right) S(i, j) 在第一个序列 U \mathbf{U} U 中的位置 i i i 和第二个序列 V \mathbf{V} V 中的位置 j j j 上进行评估。 S ( 0 , : ) \mathbf{S}\left(0,:\right) S(0,:) 和 S ( : , 0 ) \mathbf{S}\left(:,\ 0\right) S(:, 0) 被初始化为零。直观上,在位置 ( i , j ) \left(i,\ j\right) (i, j),如果 u i \mathbf{u}_i ui 和 v j \mathbf{v}_j vj 匹配,序列相似度得分应该增加。如果进行了插入或删除操作,则应该对相似度得分进行惩罚。为此,我们为这些操作学习三种类型的残差值(标量), μ i , j \mu_{i,\ j} μi, j、 g i , j g_{i\ ,j} gi ,j 和 h i , j h_{i,\ j} hi, j。以 μ i , j \mu_{i,\ j} μi, j 和 g i , j g_{i\ ,j} gi ,j 为例,计算如下:
其中 Δ i , j μ = [ f μ ( u i ) , f μ ( v i ) ] \mathbf{\Delta}_{i,\ j}^\mu=\left[f_\mu\left(\mathbf{u}_i\right),\ f_\mu\left(\mathbf{v}_i\right)\right] Δi, jμ=[fμ(ui), fμ(vi)] 和 Δ i , j g \mathbf{\Delta}_{i,\ j}^g Δi, jg 的定义类似。 f μ ( ⋅ ) f_\mu\left(\cdot\right) fμ(⋅)、 f g ( ⋅ ) f_g\left(\cdot\right) fg(⋅) 和 f h ( ⋅ ) f_h\left(\cdot\right) fh(⋅) 是三个全连接层。我们利用这些函数来模拟不同的操作,包括匹配、插入和删除。 σ μ \sigma_\mu σμ 和 σ g \sigma_g σg 是用于获取残差值的激活函数。
其中 ℓ ( x ) \ell\left(x\right) ℓ(x) 表示排名损失。下标 [ U V ] [\mathbf{UV}] [UV] 表示来自同一类别的两个动作建议,用于计算序列到序列的相似度 s = S ( M , N ) s=\mathbf{S}\left(M,N\right) s=S(M,N)。 U ′ \mathbf{U}^\prime U′ 和 V ′ \mathbf{V}^\prime V′ 代表背景提案。在我们的实现中,我们利用学习到的重要性分数 α \alpha α [56] 来选择动作和背景建议。
平滑的最大操作。作为等式(2)中的最大操作是不可微的,递归矩阵和回溯在当前公式中无法微分。因此,我们有动机对最大算子 [46] 使用标准的平滑近似:
其中 a = [ a 1 , . . . , a i , . . . ] \mathbf{a}=[\mathbf{a}_{1},...,\mathbf{a}_{i},...] a=[a1,...,ai,...] 是 max 运算符的向量。 γ \gamma γ 代表温度超参数。请注意,其他类型的平滑近似 [6、12、25] 也可用于微分,而设计新颖的平滑最大操作不是我们论文的目标。
3.3. 通过 LCS 对比进行鲁棒的分类到本地化适应
在上一节中,考虑了动作背景分离,提高了学习到的动作分类器的判别能力。然而,WSAL 任务的目标是使用精确的时间戳暂时定位动作实例,导致分类和定位之间存在较大的任务差距。为了缓解这种差距,我们尝试挖掘两个未修剪视频 X \mathbf{X} X 和 Z \mathbf{Z} Z 之间的最长公共子序列(LCS),从而提高学习动作建议的连贯性。这个想法背后的直觉是双重的:(1)如果两个视频不共享相同的动作,则 X \mathbf{X} X 和 Z \mathbf{Z} Z 之间的 LCS 长度应该很小。显然,由于背景不同且两种动作之间存在实质性差异,因此两个单独视频的片段很可能高度不一致,从而导致 LCS 较短。(2)类似地,如果两个视频共享相同的动作,则它们的 LCS 很容易很长,因为来自同一类别的动作实例由相似的时间动作片段组成。理想情况下,这种情况下的 LCS 与较短的动作实例一样长。例如,如图 2 所示,动作 CleanAndJerk 由几个连续的子动作组成,例如下蹲、抓握和抬起。
基于以上观察,如图 3 右侧所示,我们建议通过设计可微动态规划策略来对 X \mathbf{X} X 和 Z \mathbf{Z} Z 之间的 LCS 进行建模。具体来说,我们维护一个递归矩阵 R ∈ R ( T + 1 ) × ( T + 1 ) \mathbf{R}\in\mathbb{R}^{\left(T+1\right)\times\left(T+1\right)} R∈R(T+1)×(T+1),其中元素 R ( i , j ) \mathbf{R}\left(i,\ j\right) R(i, j) 存储前缀 X i \mathbf{X}_i Xi 和 Z j \mathbf{Z}_j Zj 的最长公共子序列的长度。为了找到前缀 X i \mathbf{X}_i Xi 和 Z j \mathbf{Z}_j Zj 的 LCS,我们首先比较 x i x_i xi 和 z j z_j zj。如果它们相等,则计算出的公共子序列被该元素扩展,因此 R ( i , j ) = R ( i − 1 , j − 1 ) + 1 \mathbf{R}\left(i,\ j\right)=\mathbf{R}\left(i-1,\ j-1\right)+1 R(i, j)=R(i−1, j−1)+1。如果它们不相等,则对于 R ( i , j ) \mathbf{R}\left(i,\ j\right) R(i, j) 保留之前计算的最大长度。在 WSAL 任务中,由于一对片段即使描述了相同的动作也不可能完全相同,因此我们采用它们的相似性来计算两个序列的累积软长度。由此,我们设计了 LCS 建模的递推公式:
其中 τ \tau τ 是一个阈值,用于确定视频 X \mathbf{X} X 的第 i i i 个片段和视频 Z \mathbf{Z} Z 的第 j j j 个片段是否匹配。 c i , j = c o s ( x i , z j ) c_{i,\ j}=cos\left(x_i,\ z_j\right) ci, j=cos(xi, zj) 是片段 x i x_i xi 和 z j z_j zj 的余弦相似度。请注意,通过使用上面的等式,我们可以寻找两个视频之间的最长公共子序列。尽管此处未使用,但挖掘的子序列可以定性地证明有效性并提高我们方法的可解释性(第 4.3 节)。
通过上述动态规划,结果值 r = R ( T , T ) r=\mathbf{R}\left(T,T\right) r=R(T,T) 表示两个视频之间最长公共子序列的软长度。我们利用交叉熵损失作为 LCS 学习的约束:
其中 δ x z \delta_{xz} δxz 是表示两个视频 X \mathbf{X} X 和 Z \mathbf{Z} Z 是否具有相同动作类别的 groundtruth。
讨论。在这项工作中,FSD 和 LCS 学习策略是通过可微动态规划提出的,而两者都是为序列到序列对比而设计的。然而,这两个模块并不是冗余的,并且有实质性的区别:(1)它们通过考虑不同类型的序列而具有不同的目标。我们利用 FSD 来学习稳健的动作背景分离,同时采用不同的动作和背景建议。而 LCS contrasting 旨在在两个未修剪的视频中找到连贯的动作实例,从而实现分类到本地化的自适应。(2)对比层次不同。在 FSD 对比中,考虑了不同动作/背景对之间的关系(等式(4)),而在 LCS 中,对比是在一对未修剪的视频中进行的(等式(7))。我们还在第 4.3 节中展示了联合学习 FSD 和 LCS 可以增强和互补以追求有效的 WSAL。
3.4. 学习和推理
训练。以上两个目标可以无缝集成到现有的 WSAL 框架中并相互协作。为了优化整个模型,我们组合了分类损失和两个对比损失:
由于我们提出的方法是模型不可知的和非侵入性的,通过用不同类型的损失函数和骨干替换 L c l s \mathcal{L}_{cls} Lcls,这两种对比损失可以很好地与任何其他弱监督动作定位目标合作(请参阅第 4.3 节)。
推理。给定一个测试视频,我们首先预测片段级别的 CAS,然后应用阈值策略按照标准流程 [56] 获得候选动作片段。最后,连续的片段被分组为行动建议,然后我们执行非最大抑制(NMS)以删除重复的建议。
4. 实验结果
我们在两个流行的数据集上评估了所提出的 FTCL:THUMOS14 [28] 和 ActivityNet1.3 [5]。广泛的实验结果证明了我们提出的方法的有效性。
4.1. 实验装置
THUMOS14。它包含 200 个验证视频和 213 个测试视频,并用来自 20 个动作类别的时间动作边界进行了注释。每个视频平均包含 15.4 个动作实例,使得该数据集对弱监督时间动作定位具有挑战性。在预览作品 [26、37、56、69、71] 之后,我们将验证集用于训练,将测试集用于评估。
ActivityNet1.3。ActivityNet1.3 包含来自 200 个动作类别的 10,024 个训练视频和 4,926 个验证视频,每个视频平均包含 1.6 个动作实例。按照之前工作中的标准协议 [26、37、56、69、71],我们在训练集上进行训练并在验证集上进行测试。
评估指标。继之前的模型 [38、54、65] 之后,我们使用不同时间交叉联合(t-IoU)阈值下的平均平均精度(mAP)作为评估指标。THUMOS14 的 t-IoU 阈值为 [0.1:0.1:0.7],ActivityNet 为 [0.5:0.05:0.95]。
实施细节。按照现有方法,我们使用在 Kinetics 数据集上预训练的 I3D [8] 模型作为 RGB 和光流特征提取器。输出特征的维度是 2048。请注意,为了公平比较,没有对 I3D 特征提取器应用任何微调操作。THUMOS14 和 ActivityNet 的样本片段数量 T 分别设置为 750 和 75。为了实现 f α ( ⋅ ) f_\alpha\left(\cdot\right) fα(⋅) 和 f c l s ( ⋅ ) f_{cls}\left(\cdot\right) fcls(⋅),我们采用预训练的 ACM-Net [56] 作为视频级分类的主干。对于 FSD 对比,我们通过使用学习的 CAS 选择动作/背景提议。对于 LCS 对比,为了节省计算成本,我们不使用整个未修剪的视频,而是选择 t o p − J top-J top−J 个激活的片段进行对比,THUMOS14 和 ActivityNet 的 J J J 分别设置为 30 和 10。 f μ ( ⋅ ) f_\mu\left(\cdot\right) fμ(⋅) 和 f g ( ⋅ ) f_g\left(\cdot\right) fg(⋅) 的输出维度为1024。为简单起见, f h ( ⋅ ) f_h\left(\cdot\right) fh(⋅) 与 f g ( ⋅ ) f_g\left(\cdot\right) fg(⋅) 相同。等式(5)和方程式(6)中的温度超参数 γ \gamma γ 和阈值 τ \tau τ 分别为 10 和 0.92。我们的模型是用 PyTorch 1.9.0 实现的,我们使用学习率为 10−4 和批量大小为 16 的 Adam 进行优化。我们训练我们的模型,直到训练损失平滑。
4.2. 与最先进方法的比较
对 THUMOS14 的评估。如表 1 所示,FTCL 在 THUMOS14 数据集上的几乎所有 IoU 指标上都优于以前的弱监督方法。具体来说,我们的方法实现了 35.6% mAP@0.5 和 43.6% mAP@Avg 的良好性能。与 SOTA 方法 ACM-Net [56] 和 FAC-Net [27] 相比,在平均 mAP 方面获得了 1.4% 和 1.0% 的绝对增益。此外,我们观察到我们的方法甚至可以实现与几种完全监督方法相当的性能,尽管我们在训练期间使用的监督要少得多。请注意,CoLA [71] 的 mAP@0.7 比我们的更高。然而,我们在平均 mAP 下获得了 2.7% 的绝对收益。CoLA 采用硬片段挖掘策略来追求动作完整性,可以进一步配备我们的 FTCL 以实现更有效的 WSAL。
ActivityNet1.3上的评估。如表 2 所示,我们的方法还在 ActivityNet1.3 数据集上实现了最先进的性能。具体来说,与最先进的 ACM-Net [56] 相比,我们获得了 0.8% 的相对增益。请注意,此数据集的性能改进不如 THUMOS14 数据集显着;原因可能在于 ActivityNet 中的视频比 THUMOS14 中的视频短得多。ActivityNet 平均每个视频仅包含 1.6 个实例,而 THUMOS14 中的实例数为 15.6。显然,足够的时间信息可以促进细粒度的时间对比。
4.3. 进一步说明
为了更好地理解我们的算法,我们对 THUMOS14 数据集进行了消融研究和深入分析。
FSD 对比的有效性。我们利用 FSD 对比来区分前景-背景分离。为了评估这种对比的有效性,我们从完整模型中删除了这个模块(表示为 FTCL(w/o FSD))并观察到性能显着下降,如表 3 所示。具体来说,我们的完整模型 FTCL 优于 通过相对增益(0.8%, 1.7%, 2.9%, 6.1%)mAP 在 t-IoU 阈值 [0.10, 0.30, 0.50, 0.70] 上的基线。如果没有 FSD 对比,则无法很好地处理细粒度的前景-背景区别,从而导致分类器学习不足。
LCS 对比的有效性。我们还从完整模型(FTCL(w/o LCS))中移除 LCS 对比以评估其对整体性能的贡献,相应的性能持续下降,如表 3 所示,证明了鲁棒的分类到本地化适应的积极影响。为未修剪的视频挖掘 LCS 使模型能够发现动作实例中的连贯片段,从而提高本地化性能。
以上两个模块是否冗余? FSD 和 LCS 目标都用于序列到序列对比,但目标不同。细心的读者可能会好奇 FSD 和 LCS 学习策略是否冗余,即我们是否可以采用 FSD 或 LCS 来联合建模前景背景分离和分类到本地化的适应? 为了回答这个问题,我们进行了仅使用 FSD 或 LCS 对比的实验,以解决分离和适应目标,即表 3 中的 FTCL(both-FSD) 和 FTCL(both-LCS)。我们观察到我们的完整模型优于两种变体,证明以上两个模块不是冗余的。另一个观察结果是,这两个变体比 FTCL(w/o FSD) 和 FTCL(w/o LCS) 实现了更好的性能。原因在于 FSD 和 LCS 都属于 sequence-to-sequence 测量,可以单独促进分离和适应目标。然而,由于这两个目标具有其独特的属性,我们设计了 FSD 和 LCS 对比策略来解决它们,从而获得了最佳性能。
为什么不求助于 DTW 等其他动态规划策略? 我们观察到最近的一些工作正在追求基于动态时间扭曲(DTW)[7、14、25] 的视频序列对齐。然而,DTW 假设这两个序列可以完全对齐,因此需要修剪视频。为了验证我们的 FTCL 的有效性,如表 4 所示,我们将我们提出的方法与当前最先进的基于 DTW 的方法、CycleConsistency DTW(CC-DTW)[25] 和 Drop-DTW [14] 进行比较。结果始终证明我们框架的优越性。我们还将我们的 FSD 和 LCS 策略(等式(2)和等式(6)替换为标准微分 DTW 算子 [25](表示为 DTW),正如我们上面分析的那样,它获得了较差的结果。
提出的 FTCL 的补充作用。很明显,所提出的策略与模型无关且是非侵入性的,因此可以对现有方法起到补充作用。在表 5 中,我们将我们的 FSD 和 LCS 与三种 WSAL 方法进行对比,包括 STPN [52]、W-TALC [54] 和 CoLA [71]。结果表明,我们提出的学习策略可以持续提高他们的表现。此外,我们的方法在模型推理过程中不引入计算成本。请注意,CoLA 还在片段级别采用对比学习,而我们提出的方法可以通过额外考虑细粒度的时间差异来进一步提高其性能。
5. 结论
本文为 WSAL 提出了一个细粒度的时间对比学习框架,它共同享有区分动作背景分离的优点,并减轻了分类和定位之间的任务差距。具体来说,两种类型的对比策略,包括 FSD 和 LCS 对比,是通过可微动态规划设计的,能够进行细粒度的时间区分。广泛的实验证明了令人鼓舞的表现。
限制。在这项工作中,与现有的 WSAL 模型类似,我们同样对所有视频采用固定片段划分策略。然而,由于不同的视频具有不同的持续时间和镜头,简单和固定的方式可能会阻碍细粒度的时间对比学习。未来,我们计划以自适应方式进行 FTCL,例如,考虑分层时间结构或在统一框架中执行镜头检测和动作定位。
参考文献
[1] Humam Alwassel, Fabian Caba Heilbron, Ali Thabet, and Bernard Ghanem. Refineloc: Iterative refinement for weakly-supervised action localization. In ACM, 2019. 7
[2] Donald J Berndt and James Clifford. Using dynamic time warping to find patterns in time series. In KDD workshop, volume 10, pages 359–370, 1994. 2, 3
[3] Piotr Bojanowski, Remi Lajugie, Francis Bach, Ivan Laptev, ´ Jean Ponce, Cordelia Schmid, and Josef Sivic. Weakly supervised action labeling in videos under ordering constraints. In ECCV, 2014. 3
[4] Shyamal Buch, Victor Escorcia, Bernard Ghanem, Li FeiFei, and Juan Carlos Niebles. End-to-end, single-stream temporal action detection in untrimmed videos. In BMVC, 2017. 3
[5] Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, and Juan Carlos Niebles. Activitynet: A large-scale video benchmark for human activity understanding. In CVPR. 6
[6] Xingyu Cai and Tingyang Xu. Dtwnet: a dynamic timewarping network. NeurIPS, 2019. 3, 5 [7] Kaidi Cao, Jingwei Ji, Zhangjie Cao, Chien-Yi Chang, and Juan Carlos Niebles. Few-shot video classification via temporal alignment. In CVPR, 2020. 2, 3, 8
[8] Joao Carreira and Andrew Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In CVPR. 3, 4, 6
[9] Chien-Yi Chang, De-An Huang, Yanan Sui, Li Fei-Fei, and Juan Carlos Niebles. D3tw: Discriminative differentiable dynamic time warping for weakly supervised action alignment and segmentation. In CVPR, 2019. 2, 3
[10] Xiaobin Chang, Frederick Tung, and Greg Mori. Learning discriminative prototypes with dynamic time warping. In CVPR, 2021. 2, 3
[11] Yu-Wei Chao, Sudheendra Vijayanarasimhan, Bryan Seybold, David A Ross, Jia Deng, and Rahul Sukthankar. Rethinking the faster r-cnn architecture for temporal action localization. In CVPR, 2018. 3, 7
[12] Marco Cuturi and Mathieu Blondel. Soft-dtw: a differentiable loss function for time-series. In ICML, 2017. 3, 5
[13] Xiyang Dai, Bharat Singh, Guyue Zhang, Larry S Davis, and Yan Qiu Chen. Temporal context network for activity localization in videos. In ICCV, 2017. 3
[14] Nikita Dvornik, Isma Hadji, Konstantinos G Derpanis, Animesh Garg, and Allan D Jepson. Drop-dtw: Aligning common signal between sequences while dropping outliers. arXiv:2108.11996, 2021. 3, 8
[15] Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Pierre Sermanet, and Andrew Zisserman. Temporal cycleconsistency learning. In CVPR, 2019. 3
[16] Chuang Gan, Chen Sun, Lixin Duan, and Boqing Gong. Webly-supervised video recognition by mutually voting for relevant web images and web video frames. In ECCV, 2016. 3
[17] Junyu Gao and Changsheng Xu. Fast video moment retrieval. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 1523–1532, 2021. 3
[18] Junyu Gao and Changsheng Xu. Learning video moment retrieval without a single annotated video. IEEE Transactions on Circuits and Systems for Video Technology, 2021. 3
[19] Junyu Gao, Tianzhu Zhang, and Changsheng Xu. Watch, think and attend: End-to-end video classification via dynamic knowledge evolution modeling. In Proceedings of the 26th ACM international conference on Multimedia, pages 690–699. ACM, 2018. 3
[20] Junyu Gao, Tianzhu Zhang, and Changsheng Xu. Graph convolutional tracking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4649– 4659, 2019. 3
[21] Junyu Gao, Tianzhu Zhang, and Changsheng Xu. I know the relationships: Zero-shot action recognition via two-stream graph convolutional networks and knowledge graphs. In AAAI, 2019. 3
[22] Junyu Gao, Tianzhu Zhang, and Changsheng Xu. Learning to model relationships for zero-shot video classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(10):3476–3491, 2021. 3
[23] Junyu Gao, Tianzhu Zhang, Xiaoshan Yang, and Changsheng Xu. Deep relative tracking. IEEE Transactions on Image Processing, 26(4):1845–1858, 2017. 3
[24] Guoqiang Gong, Xinghan Wang, Yadong Mu, and Qi Tian. Learning temporal co-attention models for unsupervised video action localization. In CVPR. 7
[25] Isma Hadji, Konstantinos G Derpanis, and Allan D Jepson. Representation learning via global temporal alignment and cycle-consistency. In CVPR, 2021. 2, 3, 5, 8 [26] Fa-Ting Hong, Jia-Chang Feng, Dan Xu, Ying Shan, and Wei-Shi Zheng. Cross-modal consensus network for weakly supervised temporal action localization. In ACM MM, 2021. 1, 3, 4, 6
[27] Linjiang Huang, Liang Wang, and Hongsheng Li. Foreground-action consistency network for weakly supervised temporal action localization. In ICCV, 2021. 1, 6, 7
[28] Haroon Idrees, Amir R Zamir, Yu-Gang Jiang, Alex Gorban, Ivan Laptev, Rahul Sukthankar, and Mubarak Shah. The thumos challenge on action recognition for videos “in the wild”. Computer Vision and Image Understanding, 155:1– 23, 2017. 6
[29] Ashraful Islam, Chengjiang Long, and Richard Radke. A hybrid attention mechanism for weakly-supervised temporal action localization. In AAAI, 2021. 7
[30] Ashraful Islam and Richard Radke. Weakly supervised temporal action localization using deep metric learning. In WACV, 2020. 3, 4
[31] Pilhyeon Lee and Hyeran Byun. Learning action completeness from points for weakly-supervised temporal action localization. In ICCV, 2021. 3, 7
[32] Pilhyeon Lee, Youngjung Uh, and Hyeran Byun. Background suppression network for weakly-supervised temporal action localization. In AAAI. 3, 7
[33] Pilhyeon Lee, Jinglu Wang, Yan Lu, and Hyeran Byun. Weakly-supervised temporal action localization by uncertainty modeling. In AAAI, 2021. 7
[34] Chuming Lin, Chengming Xu, Donghao Luo, Yabiao Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, and Yanwei Fu. Learning salient boundary feature for anchor-free temporal action localization. In CVPR, 2021. 3
[35] Tianwei Lin, Xu Zhao, and Zheng Shou. Single shot temporal action detection. In ACM MM, 2017. 3
[36] Daochang Liu, Tingting Jiang, and Yizhou Wang. Completeness modeling and context separation for weakly supervised temporal action localization. In CVPR, 2019. 3, 7
[37] Yuan Liu, Jingyuan Chen, Zhenfang Chen, Bing Deng, Jianqiang Huang, and Hanwang Zhang. The blessings of unlabeled background in untrimmed videos. In CVPR, 2021. 6
[38] Ziyi Liu, Le Wang, Wei Tang, Junsong Yuan, Nanning Zheng, and Gang Hua. Weakly supervised temporal action localization through learning explicit subspaces for action and context. In AAAI, 2021. 6, 7
[39] Ziyi Liu, Le Wang, Qilin Zhang, Zhanning Gao, Zhenxing Niu, Nanning Zheng, and Gang Hua. Weakly supervised temporal action localization through contrast based evaluation networks. In ICCV, 2019. 3
[40] Ziyi Liu, Le Wang, Qilin Zhang, Wei Tang, Junsong Yuan, Nanning Zheng, and Gang Hua. Acsnet: Action-context separation network for weakly supervised temporal action localization. In AAAI, 2021. 7
[41] Fuchen Long, Ting Yao, Zhaofan Qiu, Xinmei Tian, Jiebo Luo, and Tao Mei. Gaussian temporal awareness networks for action localization. In CVPR, 2019. 1, 3, 7
[42] Wang Luo, Tianzhu Zhang, Wenfei Yang, Jingen Liu, Tao Mei, Feng Wu, and Yongdong Zhang. Action unit memory network for weakly supervised temporal action localization. In CVPR, 2021. 1, 3
[43] Zhekun Luo, Devin Guillory, Baifeng Shi, Wei Ke, Fang Wan, Trevor Darrell, and Huijuan Xu. Weakly-supervised action localization with expectation-maximization multiinstance learning. In ECCV, 2020. 3
[44] Fan Ma, Linchao Zhu, Yi Yang, Shengxin Zha, Gourab Kundu, Matt Feiszli, and Zheng Shou. Sf-net: Single-frame supervision for temporal action localization. In ECCV, 2020. 3
[45] Junwei Ma, Satya Krishna Gorti, Maksims Volkovs, and Guangwei Yu. Weakly supervised action selection learning in video. In CVPR, 2021. 1, 3, 7
[46] Arthur Mensch and Mathieu Blondel. Differentiable dynamic programming for structured prediction and attention. In ICML, 2018. 3, 5
[47] Kyle Min and Jason J Corso. Adversarial background-aware loss for weakly-supervised temporal activity localization. In ECCV. 7
[48] Md Moniruzzaman, Zhaozheng Yin, Zhihai He, Ruwen Qin, and Ming C Leu. Action completeness modeling with background aware networks for weakly-supervised temporal action localization. In ACM MM, 2020. 3
[49] Sanath Narayan, Hisham Cholakkal, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, and Ling Shao. D2net: Weakly-supervised action localization via discriminative embeddings and denoised activations. In ICCV, 2021. 3, 4, 7
[50] Sanath Narayan, Hisham Cholakkal, Fahad Shahbaz Khan, and Ling Shao. 3c-net: Category count and center loss for weakly-supervised action localization. In ICCV, 2019. 3, 4, 7
[51] Gonzalo Navarro. A guided tour to approximate string matching. ACM computing surveys (CSUR), 33(1):31–88, 2001. 4
[52] Phuc Nguyen, Ting Liu, Gautam Prasad, and Bohyung Han. Weakly supervised action localization by sparse temporal pooling network. In CVPR, 2018. 3, 7, 8
[53] Phuc Xuan Nguyen, Deva Ramanan, and Charless C Fowlkes. Weakly-supervised action localization with background modeling. In ICCV, 2019. 3, 4, 7
[54] Sujoy Paul, Sourya Roy, and Amit K Roy-Chowdhury. Wtalc: Weakly-supervised temporal activity localization and classification. In ECCV, 2018. 1, 3, 4, 6, 7, 8
[55] Hiroaki Sakoe and Seibi Chiba. Dynamic programming algorithm optimization for spoken word recognition. IEEE transactions on acoustics, speech, and signal processing, 26(1):43–49, 1978. 2, 3
[56] Zhijun Li Lijun Zhang Fan Lu Alois Knoll Sanqing Qu, Guang Chen. Acm-net: Action context modeling network for weakly-supervised temporal action localization. arXiv:2104.02967, 2021. 1, 3, 4, 5, 6, 7
[57] Baifeng Shi, Qi Dai, Yadong Mu, and Jingdong Wang. Weakly-supervised action localization by generative attention modeling. In CVPR, 2020. 1, 3, 7
[58] Zheng Shou, Jonathan Chan, Alireza Zareian, Kazuyuki Miyazawa, and Shih-Fu Chang. Cdc: Convolutional-deconvolutional networks for precise temporal action localization in untrimmed videos. In CVPR, 2017. 3, 7
[59] Zheng Shou, Hang Gao, Lei Zhang, Kazuyuki Miyazawa, and Shih-Fu Chang. Autoloc: Weakly-supervised temporal action localization in untrimmed videos. In ECCV. 7
[60] Zheng Shou, Dongang Wang, and S Chang. Action temporal localization in untrimmed videos via multi-stage cnns. In CVPR. 7
[61] Zheng Shou, Dongang Wang, and Shih-Fu Chang. Temporal action localization in untrimmed videos via multi-stage cnns. In CVPR, 2016. 3
[62] Krishna Kumar Singh and Yong Jae Lee. Hide-and-seek: Forcing a network to be meticulous for weakly-supervised object and action localization. In ICCV, 2017. 3, 7
[63] Deepak Sridhar, Niamul Quader, Srikanth Muralidharan, Yaoxin Li, Peng Dai, and Juwei Lu. Class semantics-based attention for action detection. In ICCV, 2021. 1, 3
[64] Jing Tan, Jiaqi Tang, Limin Wang, and Gangshan Wu. Relaxed transformer decoders for direct action proposal generation. arXiv:2102.01894, 2021. 3
[65] Limin Wang, Yuanjun Xiong, Dahua Lin, and Luc Van Gool. Untrimmednets for weakly supervised action recognition and detection. In CVPR, 2017. 1, 3, 6, 7
[66] Huijuan Xu, Abir Das, and Kate Saenko. R-c3d: Region convolutional 3d network for temporal activity detection. In ICCV, 2017. 3, 7
[67] Mengmeng Xu, Chen Zhao, David S Rojas, Ali Thabet, and Bernard Ghanem. G-tad: Sub-graph localization for temporal action detection. In CVPR, 2020. 1, 3
[68] Yunlu Xu, Chengwei Zhang, Zhanzhan Cheng, Jianwen Xie, Yi Niu, Shiliang Pu, and Fei Wu. Segregated temporal assembly recurrent networks for weakly supervised multiple action detection. In AAAI, 2019. 1, 3, 7
[69] Wenfei Yang, Tianzhu Zhang, Xiaoyuan Yu, Tian Qi, Yongdong Zhang, and Feng Wu. Uncertainty guided collaborative training for weakly supervised temporal action detection. In CVPR, 2021. 1, 6
[70] Yuan Yuan, Yueming Lyu, Xi Shen, Ivor Tsang, and DitYan Yeung. Marginalized average attentional network for weakly-supervised learning. In ICLR, 2019. 7
[71] Can Zhang, Meng Cao, Dongming Yang, Jie Chen, and Yuexian Zou. Cola: Weakly-supervised temporal action localization with snippet contrastive learning. In CVPR, 2021. 1, 3, 4, 6, 7, 8
[72] Chengwei Zhang, Yunlu Xu, Zhanzhan Cheng, Yi Niu, Shiliang Pu, Fei Wu, and Futai Zou. Adversarial seeded sequence growing for weakly-supervised temporal action localization. In ACM MM, 2019. 3
[73] Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, and Dahua Lin. Temporal action detection with structured segment networks. In ICCV, 2017. 3, 7
[74] Jia-Xing Zhong, Nannan Li, Weijie Kong, Tao Zhang, Thomas H Li, and Ge Li. Step-by-step erasion, one-by-one collection: a weakly supervised temporal action detector. In ACM MM, 2018. 3
[75] Zixin Zhu, Wei Tang, Le Wang, Nanning Zheng, and Gang Hua. Enriching local and global contexts for temporal action localization. In ICCV, 2021. 1, 3