时序动作定位 | 基于判别增强的弱监督时序动作定位融合检测网络

<Fusion detection network with discriminative enhancement for weakly-supervised temporal action localization>

一、摘要 

        弱监督时序动作定位旨在仅使用视频级动作标签识别和定位未修剪视频中的动作实例。由于缺乏帧级注释信息,正确区分视频中的前景和背景片段对于动作的时间定位至关重要。然而,除了前景和背景片段外,视频中还存在大量语义相似的片段。这些片段与前景或背景共享相同的语义信息,导致操作实例的边界定位不那么细粒度。

        受多模态学习成功的启发,我们从多模态输入中提取高质量的语义特征,并构建对比度损失来增强模型区分语义相似片段的能力。本文提出了一种带有判别增强的融合检测网络(fusion detection network with discriminative enhancement,De-FDN)。

        具体而言,设计了一个融合检测模型(FDM),充分利用多模态特征之间的互补性和相关性,从视频中提取高质量的语义特征。然后,构建多模态类激活序列,实现动作实例的准确识别和定位。此外,设计了一种判别增强机制(DEM),该机制通过计算语义对比损失来增加语义相似段之间的差距。


二、方法 

3.2. 融合检测网络(Fusion detection network)

        它主要由三个部分组成:共识关注模块、判别增强机制和融合检测模块。共识关注模块有助于模态特征流之间的信息交换,以帮助彼此学习和提取高质量的语义特

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程日记✧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值