论文阅读:Weakly-supervised Action Localization with Background Modeling

Weakly-supervised Action Localization with Background Modeling


在这里插入图片描述

摘要

  1. 使用一个attention model以提取前景和背景以显示建模外观。
  2. 结合bottom-up,class-agnostic attention modules与top-down class-specific activation map。并应用自监督。

Localization from Weak Supervision Assume

  1. 视频标签表示: y ∈ { 0 , . . . , C } y∈\{ 0,...,C\} y{0,...,C} C C C是可能的行为类别数,0是背景类。
  2. X t ∈ R d X_t∈R^d XtRd表示基于RGB和光流的特征。

Weak Supervision

  1. 视频级别的foreground feature X f g X_{fg} Xfg(加权求和):
    在这里插入图片描述
    λ t ∈ [ 0 , 1 ] λ_t∈[0,1] λt[0,1],且 λ t = Ω ( x t ) λ_t = Ω(x_t) λt=(xt),函数由两个 f c fc fc组成,第一个带有 R e L U ReLU ReLU,第二个带有 s i g m o i d sigmoid sigmoid λ t ∈ R d λ_t∈R^d λtRd,因此得到的 X f g ∈ R d X_{fg}∈R^d XfgRd
    视频级别的预测:
    在这里插入图片描述
    其中 w c ∈ R d w_c∈R^d wcRd
    计算损失:
    在这里插入图片描述
  2. Background-Aware Loss
    背景特征及背景预测:

    计算损失(鼓励在背景索引上的预测接近1,即鼓励参数 w w w学会区分背景):
    在这里插入图片描述
  3. Self-guided Attention Loss
    原因: λ t λ_t λt是一个自下而上的,与类无关的attention,它可能会响应一些一般线索,如大型的肢体动作,而不会具体到一些特定的行为。而TCAM可以提取自顶向下的attentional线索。因此,提出类特定的TCAM attention map作为自监督重新微调 λ t λ_t λt
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  4. Foreground-background Clustering Loss
    考虑了一个完全由视频特征和关注度λ定义的自下而上的损失,鼓励分类器对前景或背景特征响应强烈。
    在这里插入图片描述
    在这里插入图片描述
  5. 总损失
    在这里插入图片描述

定位

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值