<Fusion detection network with discriminative enhancement for weakly-supervised temporal action localization>
一、摘要
弱监督时序动作定位旨在仅使用视频级动作标签识别和定位未修剪视频中的动作实例。由于缺乏帧级注释信息,正确区分视频中的前景和背景片段对于动作的时间定位至关重要。然而,除了前景和背景片段外,视频中还存在大量语义相似的片段。这些片段与前景或背景共享相同的语义信息,导致操作实例的边界定位不那么细粒度。
受多模态学习成功的启发,我们从多模态输入中提取高质量的语义特征,并构建对比度损失来增强模型区分语义相似片段的能力。本文提出了一种带有判别增强的融合检测网络(fusion detection network with discriminative enhancement,De-FDN)。
具体而言,设计了一个融合检测模型(FDM),充分利用多模态特征之间的互补性和相关性,从视频中提取高质量的语义特征。然后,构建多模态类激活序列,实现动作实例的准确识别和定位。此外,设计了一种判别增强机制(DEM),该机制通过计算语