2023-ICASSP-Dual-Feature Enhancement for Weakly Supervised Temporal Action Localization
弱监督时间动作定位的双特征增强
摘要
弱监督时间动作定位(WTAL)旨在定位只有视频级别标签的未修剪视频中的动作。大多数现有方法都采用 “分类定位” 范式,并采用预先训练有识别任务的模型来提取特征。识别和定位任务之间的差距导致性能较差。最近的一些工作试图利用特征增强来获得更好的定位特征并在一定程度上提高性能。然而,它们仅限于视频内信息的利用,而忽略了数据集中有意义的视频间信息。在本文中,我们为 WTAL 提出了一种新颖的双特征增强
(DFE)方法,它可以利用视频内和视频间信息。对于视频内,设计了一个局部特征增强模块来促进每个视频内沿时间维度的特征交互。对于视频间信息,首先设计了一个全局记忆模块来学习不同视频中不同类别的表示。然后,使用全局特征增强模块在记忆中的那些全局表示的帮助下增强视频特征。此外,为了减少在推理阶段由全局增强模块引起的额外计算成本,应用蒸馏损失来强制局部分支从全局分支学习信息,因此可以在推理过程中删除全局增强模块。所提出的方法在流行的基准测试中实现了最先进的性能。
索引词—弱监督学习,时间动作定位,视觉转换器,视频理解
1. 引言
时间动作定位(TAL)是视频理解的一项重要任务,其目的是识别动作的类别并在长的未修剪视频中定位每个动作实例的开始和结束时间戳。尽管完全监督的方法 [1-3] 已经取得了很好的性能,但昂贵的帧级注释是负担不起的。
最近,弱监督时间动作定位方法 [4-6] 被提出来探索一种更便宜的方法来仅通过视频级监督来定位动作实例。由于没有帧级注释,大多数方法使用“分类定位”管道,将分类分数高的片段作为定位结果。采用预训练模型(例如 I3D [7])进行特征提取是该管道的常见做法。然而,预训练特征提取器最初是为动作识别而提出的,它利用剪辑良好的视频进行训练。此定位任务与预训练识别任务之间的不一致导致性能较差。
为了解决这个问题,以前的一些方法 [8-10] 试图制作两种或三种不同的模态流,其中来自不同角度的模态特定信息相互补充。例如,[8] 试图缩小两种模态的输出之间的距离,并分别探索它们在每个时间点的相关性。然而,忽略了时间维度上的有效动作信息。最近,提出了一些其他方法 [11-14],通过探索相同动作类别的共性以及前景和背景之间的差异来增强特征。不幸的是,这些方法仅限于一个视频中的局部信息,而未利用不同视频之间的全局信息。
与现有方法不同,我们建议利用一个视频(视频内)内的局部信息和不同视频(视频间)之间的全局信息来进行特征增强,如图 1 所示。为此,我们提出了一种新颖的方法 WTAL 的双功能增强(DFE)方法。具体来说,为了利用视频内信息,局部视频内增强模块(LEM)旨在促进每个视频内沿时间维度的特征交互。为了利用全局视频间信息,首先设计了一个全局记忆模块(GMM)来学习整个数据集中不同视频中每个类别的判别表示。然后,设计了一个全局视频间特征增强模块(GEM),以借助记忆中的那些判别性表示来增强视频特征。LEM 模块和 GEM 模块都是基于 Transformer 结构设计的 [15]。此外,应用蒸馏损失来强制局部分支从全局分支学习信息,这可以帮助我们在推理阶段删除 GMM 和 GEM,从而降低计算成本。广泛的实验结果表明,DFE 在两个常用的基准测试中实现了最先进的性能,例如 THUMOS14 [16] 和 ActivityNet1.2 [17]。
2. 方法
问题表述。WTAL 旨在识别和定位未修剪视频中的动作片段,仅给定视频级别标签进行训练。我们将这个问题表述如下:假设一个视频,表示为 V V V,与类别标签 Y = { y 1 , . . . , y c , . . . , y C } Y=\left\{y_1,\ ...,\ y_c,\ ...,\ y_C\right\} Y={y1, ..., yc, ..., yC} 绑定,其中 y c ∈ { 0 , 1 } y_c\in\left\{0,\ 1\right\} yc∈{0, 1} 并且 C C C 是 动作类别的数量。在推理阶段,WTAL 的目标是为每个测试视频预测一组动作片段 S = { ( s i , e i , c i , q i ) } S=\left\{\left(s_i,\ e_i,\ c_i,\ q_i\right)\right\} S={(si, ei, ci, qi)},其中 s i , e i s_i,\ e_i si, ei 是开始和结束时间, c i , q i c_i,\ q_i ci, qi 是第 i i i 个片段的预测类别和置信度分数。
概述。DFE 的概述如图 2(a) 所示。首先提取每个视频的特征。然后,LEM 用于增强单个视频中时间维度的特征。局部增强特征被送入预测头。根据预测头的结果选择视频代表特征,用于更新 GMM 中存储的特征。最后,采用 GEM 将 GMM 中的全局信息与当前视频的局部增强特征进行聚合,并将获得的特征也馈送到同一个预测头中。
2.1. 特征提取
给定一个输入视频 V V V,我们首先将每个未修剪的视频 V ( i ) = { v t } t = 1 l V^{\left(i\right)}=\left\{v_t\right\}_{t=1}^l V(i)={vt}t=1l 分成 [9、18] 之后的不重叠的 16 帧片段,其中 l l l 是片段的数量。然后应用在 Kinetics-400 数据集 [19] 上预训练的 I3D [7] 模型对来自片段的外观(RGB)和运动(光流)信息进行编码。从特征提取器获得的特征维度对于 RGB 流和光流都是 1024。RGB 流和光流的特征表示为 F R G B ∈ R l × d F_{RGB}\in\mathbb{R}^{l\times d} FRGB∈Rl×d 和 F f l o w ∈ R l × d F_{flow}\in\mathbb{R}^{l\times d} Fflow∈Rl×d,其中 d d d 表示特征向量的维数。我们将 F R G B F_{RGB} FRGB 和 F f l o w F_{flow} Fflow 作为我们后续网络的输入。
其中 softmax 激活在最后一个维度执行。增强的光流特征 F f l o w ′ F_{flow}^\prime Fflow′ 以类似的方式获得,但具有不同的自注意力参数集。然后将 F R G B ′ F_{RGB}^\prime FRGB′ 和 F f l o w ′ F_{flow}^\prime Fflow′ 连接起来得到 F L ∈ R T × D F^L\in\mathbb{R}^{T\times D} FL∈RT×D 作为后续模块的输入,其中 D = 2 d D=2d D=2d。我们称将 F L F^L FL 馈送到预测头的分支为 LEM 分支。继 [9] 之后,预测头由两个 MLP 组成。其中一个具有两个 FC 层并预测类激活序列结果 O L ∈ R T × ( C + 1 ) O^L\in\mathbb{R}^{T\times\left(C+1\right)} OL∈RT×(C+1),而另一个具有三个 FC 层并预测前景注意力权重 B ∈ R T × 1 B\in\mathbb{R}^{T\times1} B∈RT×1。
2.3. 全局内存模块
GMM 中的记忆 M ∈ R C × D M\in\mathbb{R}^{C\times D} M∈RC×D 存储整个数据集中每个动作类别的聚合特征。为了更新 M M M,我们首先根据 O L O^L OL 视频的标签选择相应的序列 H ∈ R T × D H\in\mathbb{R}^{T\times D} H∈RT×D,其中 C ′ C^\prime C′ 表示该视频中共有 C ′ C^\prime C′ 类动作。然后,对于 H H H 中的每个动作序列,我们从 K K K 个时间位置中选取 F L F^L FL 中置信度最高的前 K K K 个特征作为该视频的代表性特征 R ∈ R C ′ × K × D R\in\mathbb{R}^{C^\prime\times K\times D} R∈RC′×K×D。
设 R c , i ∈ R D R_{c,\ i}\in\mathbb{R}^D Rc, i∈RD 为 R R R 中第 c c c 类的第 i i i 个特征, M c ∈ R D M_c\in\mathbb{R}^D Mc∈RD 为记忆 M M M 中的第 c c c 类特征,我们可以得到 R c , i R_{c,\ i} Rc, i 与 M c M_c Mc 的余弦相似度,即表示为 a c , i a_{c,i} ac,i。然后我们使用余弦相似度来计算更新记忆所需的视频转换信息:
我们应用参数动量 m n m_n mn 来更新记忆内容:
其中 n n n 表示当前迭代次数, N N N 是最大迭代次数, p p p 是更新速率。我们将 m 0 m_0 m0 设置为 0.9,将 p p p 设置为 0.5。更新记忆的结果特征如下:
请注意,为了简单起见,在其他部分中省略了记忆 M M M 的下标 n n n。
2.4. 全局视频间特征增强模块
在这个模块中,我们尝试将全局信息特征聚合到局部增强特征 F L F^L FL 中。除了 M M M 中的全局前景动作特征外,我们还在 F L F^L FL 中从 B B B 中分数最低的时间位置选取一个背景代表特征,即与 M M M 连接,产生新的记忆特征 M ′ ∈ R ( C + 1 ) × D M^\prime\in\mathbb{R}^{\left(C+1\right)\times D} M′∈R(C+1)×D。我们不在记忆中学习全局背景特征的原因是背景可能因视频而异,即使动作相同,如图 1 所示。在我们的设计中,背景特征是从输入视频中获得的,也专门用于输入视频。首先,我们将分类结果 O L O^L OL 与记忆特征 M ′ M^\prime M′ 聚合:
获得的结果 U ∈ R T × D U\in\mathbb{R}^{T\times D} U∈RT×D 包含视频特定的局部信息和全局信息。然后,采用图 2(c) 所示的注意机制,用一组参数 W ˉ q , W ˉ k , W ˉ v , W ˉ o ∈ R D × D {\bar{W}}^q,\ {\bar{W}}^k,\ {\bar{W}}^v,\ {\bar{W}}^o\in\mathbb{R}^{D\times D} Wˉq, Wˉk, Wˉv, Wˉo∈RD×D 进行参数化,将 U U U 与 F L F^L FL 融合:
与 LEM 分支类似,我们将此分支视为 GEM 分支。最后,我们将 F G F^G FG 馈入预测头以获得类激活序列结果 O G O^G OG 和前景注意力权重 B G B^G BG。
2.5. 训练目标
我们使用 [9] 中的损失函数来约束 LEM 分支的输出,相应的损失表示为 L L L_L LL。采用 top-k 多实例学习损失 [18] 来约束 GEM 分支的输出,记为 L G L_G LG。
由于记忆包含不同动作类别的特征,我们进一步将 M M M 馈送到预测头并得到 CAS 结果 O M ∈ R C × ( C + 1 ) O^M\in\mathbb{R}^{C\times\left(C+1\right)} OM∈RC×(C+1),其由具有交叉熵损失的相应动作标签监督。我们将此损失表示为 L M L_M LM。
为了降低推理计算成本,我们通过 O L O^L OL 和 O G O^G OG 之间的蒸馏损失将学习到的全局信息从 GEM 分支蒸馏到 LEM 分支:
在 L D L_D LD 的帮助下,我们可以在推理阶段删除 GEM 分支。总损失 L = 0.5 L D + L L + L G + L M L=0.5L_D+L_L+L_G+L_M L=0.5LD+LL+LG+LM 是不同损失的总和。
3. 实验
数据集。我们在两个公共数据集上评估我们提出的方法:1)THUMOS14 数据集 [16] 包含来自 20 个类别的未修剪视频。我们使用验证集中的 200 个视频进行训练,使用测试集中的 212 个视频进行评估;2)ActivityNet1.2 [17] 涵盖 200 个日常活动,提供 4819 个视频用于训练,2383 个用于验证,2489 个用于测试。我们使用验证集进行评估,因为我们无法获得测试视频的真实注释,因为它们被保留用于挑战。
实施细节。我们将 THUMOS14 数据集的特征 T 的时间维度设置为 2300,将 ActivityNet1.2 数据集的时间维度设置为 400。我们部署 AdamW 优化器 [20] 进行优化,THUMOS14 的学习率为 1e-4,权重衰减率为 1e-3,而 ActivityNet1.2 数据集为 5e-6 和 5e-4。请注意,在添加 GMM 和 GEM 模块之前,我们在前 2000 个时期使用 LEM 分支作为热身。
与最先进方法的比较。我们首先将我们提出的方法 DFE 与当前最先进的弱监督方法进行比较。我们的方法显示出显着的改进。在表 1 中,我们可以看到我们的方法在 THUMOS14 数据集上实现了大多数 IoU 指标的显着改进。表 2 显示我们的方法平均优于所有当前的 SOTA 方法。
消融研究。在这一部分中,我们对 THUMOS14 数据集 [16] 进行了消融实验,结果如表 3 所示。组件的消融实验证明了 DFE 的每个功能的有效性。实验 1 表示没有我们设计的模块但仅使用基本视频级损失的基本模型。实验 2、3 分别评估了 LEM 和 GEM 的性能。在实验 4 中,我们同时使用 LEM 和 GEM,并将 GEM 分支的输出作为结果,实验结果表明性能优于仅使用单个模块。在实验 5 中,如上所述,我们采用蒸馏损失,并将 LEM 分支的输出作为结果,从而达到最佳性能。这出乎我们的意料。然而,这两个分支之间的蒸馏损失与那些使用伪标签 [22、26] 训练的方法一致,其中一个分支由另一个分支监督以获得更好的性能。我们的 LD 辅助 DEF 得出了相同的结论。
视觉效果。我们在图 3 中给出了动作类别 “Throw Discus” 的示例。GT 表示 ground truth,它标注了正确的动作开始和结束时间;Base 表示我们设计的没有 LEM、GEM 和蒸馏损失的基础模型;我们的意味着我们的模型。通过对每个动作实例的观察,我们可以看出每个动作实例的开始和结束都是相似的动作。通过在 ground truth 上将我们的模型与基础模型进行比较,我们的模型对不完整动作实例的问题有很好的改进。
4. 结论
在本文中,我们提出了一种新颖的框架,该框架可以聚合单个视频中的有效局部信息和不同视频之间的全局信息。全局信息可以从全局增强分支提取到局部增强分支,从而在推理阶段获得更好的性能。在两个流行的基准上进行的大量实验证明了我们方法的最新性能。
参考文献
[1] Zheng Shou, Dongang Wang, and Shih-Fu Chang, “Temporal action localization in untrimmed videos via multi-stage cnns,” in CVPR, 2016, pp. 1049–1058. 1, 4
[2] Tianwei Lin, Xu Zhao, Haisheng Su, Chongjing Wang, and Ming Yang, “Bsn: Boundary sensitive network for temporal action proposal generation,” in ECCV, 2018, pp. 3–19. 4
[3] Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, and Dahua Lin, “Temporal action detection with structured segment networks,” in ICCV, 2017, pp. 2914–2923. 1
[4] Limin Wang, Yuanjun Xiong, Dahua Lin, and Luc Van Gool, “Untrimmednets for weakly supervised action recognition and detection,” in CVPR, 2017, pp. 4325–4334. 1
[5] Pilhyeon Lee, Youngjung Uh, and Hyeran Byun, “Background suppression network for weakly-supervised temporal action localization,” in AAAI, 2020, vol. 34, pp. 11320–11327. 4
[6] Ashraful Islam, Chengjiang Long, and Richard Radke, “A hybrid attention mechanism for weakly-supervised temporal action localization,” in AAAI, 2021, vol. 35, pp. 1637–1645. 1, 4
[7] J. Carreira and A. Zisserman, “Quo vadis, action recognition? a new model and the kinetics dataset,” in CVPR, 2017. 1, 2
[8] Wenfei Yang, Tianzhu Zhang, Xiaoyuan Yu, Tian Qi, Yongdong Zhang, and Feng Wu, “Uncertainty guided collaborative training for weakly supervised temporal action detection,” in CVPR, 2021, pp. 53–63. 1, 4
[9] Fa-Ting Hong, Jia-Chang Feng, Dan Xu, Ying Shan, and Wei-Shi Zheng, “Cross-modal consensus network for weakly supervised temporal action localization,” in ACM MM, 2021, pp. 1591–1599. 2, 3, 4
[10] Jun-Tae Lee, Sungrack Yun, and Mihir Jain, “Leaky gated cross-attention for weakly supervised multi-modal temporal action localization,” in WACV, 2022, pp. 3213–3222. 1
[11] Zichen Yang, Jie Qin, and Di Huang, “Acgnet: Action complement graph network for weakly-supervised temporal action localization,” in AAAI, 2022, vol. 36, pp. 3090–3098. 1
[12] Can Zhang, Meng Cao, Dongming Yang, Jie Chen, and Yuexian Zou, “Cola: Weakly-supervised temporal action localization with snippet contrastive learning,” in CVPR, 2021, pp. 16010–16019. 4
[13] Ziyi Liu, Le Wang, Qilin Zhang, Wei Tang, Junsong Yuan, Nanning Zheng, and Gang Hua, “Acsnet: Actioncontext separation network for weakly supervised temporal action localization,” in AAAI, 2021, vol. 35, pp. 2233–2241. 4
[14] Pilhyeon Lee and Hyeran Byun, “Learning action completeness from points for weakly-supervised temporal action localization,” in ICCV, 2021, pp. 13648–13657. 1
[15] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin, “Attention is all you need,” NIPS, vol. 30, 2017. 2
[16] Yu-Gang Jiang, Jingen Liu, A Roshan Zamir, George Toderici, Ivan Laptev, Mubarak Shah, and Rahul Sukthankar, “Thumos challenge: Action recognition with a large number of classes,” 2014. 2, 3, 4
[17] Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, and Juan Carlos Niebles, “Activitynet: A large-scale video benchmark for human activity understanding,” in CVPR, 2015, pp. 961–970. 2, 4
[18] Sujoy Paul, Sourya Roy, and Amit K Roy-Chowdhury, “W-talc: Weakly-supervised temporal activity localization and classification,” in ECCV, 2018, pp. 563–579. 2, 3
[19] Y. Shen, H. Li, X. Tong, Y. Shuai, and X. Wang, “Deep group-shuffling random walk for person reidentification,” in CVPR, 2018. 2
[20] Shugao Ma, Leonid Sigal, and Stan Sclaroff, “Learning activity progression in lstms for activity detection and early detection,” in CVPR, 2016, pp. 1942–1950. 4
[21] Yu-Wei Chao, Sudheendra Vijayanarasimhan, Bryan Seybold, David A Ross, Jia Deng, and Rahul Sukthankar, “Rethinking the faster r-cnn architecture for temporal action localization,” in CVPR, 2018, pp. 1130– 1139. 4
[22] Linjiang Huang, Liang Wang, and Hongsheng Li, “Weakly supervised temporal action localization via representative snippet knowledge propagation,” in CVPR, 2022, pp. 3272–3281. 4
[23] Junyu Gao, Mengyuan Chen, and Changsheng Xu, “Fine-grained temporal contrastive learning for weaklysupervised temporal action localization,” in CVPR, 2022, pp. 19999–20009. 4
[24] Baifeng Shi, Qi Dai, Yadong Mu, and Jingdong Wang, “Weakly-supervised action localization by generative attention modeling,” in CVPR, 2020, pp. 1009–1019. 4
[25] Sanath Narayan, Hisham Cholakkal, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, and Ling Shao, “D2-net: Weakly-supervised action localization via discriminative embeddings and denoised activations,” in ICCV, 2021, pp. 13608–13617. 4
[26] Yuanhao Zhai, Le Wang, Wei Tang, Qilin Zhang, Junsong Yuan, and Gang Hua, “Two-stream consensus network for weakly-supervised temporal action localization,” in ECCV. Springer, 2020, pp. 37–54. 4