【视频动作定位】Weakly-supervised Temporal Action Localization by Uncertainty Modeling
弱监督时间动作定位的目的是学习仅用视频级别标签来检测动作类别的时间间隔。为此,将动作类别的帧与背景帧(即不属于任何动作类的帧)分开是至关重要的。在本文中,我们提出了一个关于背景帧的新视角,其中它们被建模为分布外样本,因为它们的不一致性。然后,可以通过估计每帧偏离分布的概率来检测背景帧,称为不确定性,但如果没有帧级标签,直接学习不确定性是不可行的。为了实现弱监督环境下的不确定性学习,我们利用了多实例学习公式。此外,我们进一步引入背景熵损失,通过鼓励其分布(动作)概率均匀分布在所有动作类上来更好地区分背景帧。
原创
2024-07-14 21:29:52 ·
634 阅读 ·
0 评论