[AAAI’21]ACSNet:Action-Context Separation Network for Weakly Supervised Temporal Action Localization
从图中可以看出,左侧绿色框表示是动作类、红色框表示是动作上下文、蓝色框表示为背景类。通过右图的特征空间可见,蓝色的背景类特征与GT相差较远,但是红色的上下文类与GT高度相似,特别是在边界区域,这就导致上下文的误检。
问题的引入:通过视频级别分类定位的前景不仅涉及实际操作实例,还涉及其周围的上下文。以前的方法利用前景注意来实现前景背景分离,而忽略了上下文和动作实例的剥离
Answer:由于上下文为动作分类提供了有力的证据,所以很容易和动作实例混淆,如果将上下文信息和动作实例进行有效的剥离,那么动作时间定位在细粒度上将更加准确。
Contribution:ACSNet不仅可以将前景与背景区分开来,还可以将前景中的动作和背景分离开来,以实现更精确的动作定位使用两个潜在组件的不同组合,分别描述前景、动作和上下文;带有上下文类别的辅助标签
以前的方法可不可以将上下文信息和动作实例剥离?
- 缺乏明确的动作语境约束:前景和背景注意力得分的一对一约束不适用于动作语境分离
- 缺乏明确的监督:动作和上下文都有助于动作分类,因此唯一可用的视频级别分类标签无法为它们提供直接监督。
为什么要引入上下文类别的辅助标签?
通过显式地解耦实际动作及其上下文,这种新的表示有助于有效地学习动作上下文分离。
前景由两个潜在的分量表示,将与实际动作对应为正分量,另一部分为负分量
之后