论文阅读:Weakly-supervised Action Localization with Background Modeling

Weakly-supervised Action Localization with Background Modeling


在这里插入图片描述

摘要

  1. 使用一个attention model以提取前景和背景以显示建模外观。
  2. 结合bottom-up,class-agnostic attention modules与top-down class-specific activation map。并应用自监督。

Localization from Weak Supervision Assume

  1. 视频标签表示: y ∈ { 0 , . . . , C } y∈\{ 0,...,C\} y{0,...,C} C C C是可能的行为类别数,0是背景类。
  2. X t ∈ R d X_t∈R^d XtRd表示基于RGB和光流的特征。

Weak Supervision

  1. 视频级别的foreground feature X f g X_{fg} Xfg(加权求和):
    在这里插入图片描述
    λ t ∈ [ 0 , 1 ] λ_t∈[0,1] λt[0,1],且 λ t = Ω ( x t ) λ_t = Ω(x_t) λt=(xt),函数由两个 f c fc fc组成,第一个带有 R e L U ReLU ReLU,第二个带有 s i g m o i d sigmoid sigmoid λ t ∈ R d λ_t∈R^d λtRd,因此得到的 X f g ∈ R d X_{fg}∈R^d XfgRd
    视频级别的预测:
    在这里插入图片描述
    其中 w c ∈ R d w_c∈R^d wcRd
    计算损失:
    在这里插入图片描述
  2. Background-Aware Loss
    背景特征及背景预测:

    计算损失(鼓励在背景索引上的预测接近1,即鼓励参数 w w w学会区分背景):
    在这里插入图片描述
  3. Self-guided Attention Loss
    原因: λ t λ_t λt是一个自下而上的,与类无关的attention,它可能会响应一些一般线索,如大型的肢体动作,而不会具体到一些特定的行为。而TCAM可以提取自顶向下的attentional线索。因此,提出类特定的TCAM attention map作为自监督重新微调 λ t λ_t λt
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  4. Foreground-background Clustering Loss
    考虑了一个完全由视频特征和关注度λ定义的自下而上的损失,鼓励分类器对前景或背景特征响应强烈。
    在这里插入图片描述
    在这里插入图片描述
  5. 总损失
    在这里插入图片描述

定位

在这里插入图片描述

### 关于目标检测优化的研究论文 在目标检测领域,研究者们不断尝试通过改进算法结构、引入新的机制以及增强数据表示等方式来提升性能。以下是几个重要的方向及相关研究成果: #### 1. 上下文建模与视频中的目标检测跟踪 一篇重要文章《Improving Context Modeling for Video Object Detection and Tracking》探讨了如何利用上下文信息改善视频序列中的目标检测和追踪效果[^1]。该工作强调了时间一致性的重要性,并提出了一种有效的框架用于融合跨帧的信息。 #### 2. 小样本学习下的目标检测技术进展 近年来,在小样本(Few-Shot)条件下实现高效的目标检测成为热点之一。文献指出多种策略被用来缓解因标注不足而导致的泛化难题。例如: - **LSTD** 提出了两种正则化手段——转移知识正则化与背景抑制正则化,帮助迁移源域的知识到目标域; - **RepMet**, 则是在区域兴趣 (Region of Interest, RoI) 的分类阶段应用距离度量学习方法构建更鲁棒的决策边界; - 另外还有像 FSRW 和 Meta R-CNN 这样的方案,它们分别设计专门模块调整特征权重或者生成注意力向量以突出感兴趣类别特性[^2]. #### 3. 弱监督定位网络的发展 对于弱标签情况下的物体位置估计,《Context-Aware Deep Network Models for Weakly Supervised Localization》提供了有价值的见解。此项目不仅介绍了理论基础还开放了一些实用工具链供社区进一步探索[^3]。具体来说,它展示了怎样借助全局平均池化后的响应图谱去粗略锁定潜在目标所在的大致范围。 ```python import torch.nn as nn class CAM(nn.Module): def __init__(self, num_classes=1000): super(CAM, self).__init__() self.features = nn.Sequential( # Define feature extractor layers here... ) self.classifier = nn.Linear(512 * block.expansion, num_classes) def forward(self, x): features = self.features(x) out = nn.functional.avg_pool2d(features, kernel_size=(features.size(-1), features.size(-2))) out = out.view(out.size(0), -1) return self.classifier(out), features ``` 上述代码片段展示了一个简单的卷积激活映射(Class Activation Mapping,CAM) 实现方式,这是理解哪些部分最能代表某个特定类别的关键步骤之一。 --- ###
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值