ContextLocNet: Context-Aware Deep Network Models for Weakly Supervised Localization

我们通过引入两种类型的上下文感知指导模型,即加性模型和对比模型来解决这个问题,这两种模型利用它们周围的上下文区域来改进定位。
加性模型鼓励预测的对象区域得到其周围上下文区域的支持。 对比模型鼓励预测的对象区域从其周围的上下文区域中突出。

给定提取的ROI作候选区,本文提出两个基本的上下文感知模型,加性模型和对比模型,利用周围的上下文区域来改进候选区;加性模型依赖于语义一致性,它从ROI和上下文中聚合类激活;对比模型依靠语义对比来计算ROI和上下文之间类的激活

方法

在这里插入图片描述

1、Convolutional and ROI Pooling Layers

conv layers:VGG-F
ROI pooling与faster RCNN相同

2、Feature Pooling for Context-Aware Guidance

在这里插入图片描述
为了上下文定位与学习,本文扩展了ROI pooling。ROI pooling包括三个部分, ROI pooling, context pooling, and frame pooling,ROI pooling是候选框,context pooling是ROI周围的外部区域,frame pooling是内部区域ROI。注意,context pooling和frame pooling生成相同形状的特征映射,即输出的中心区域的值将为零。这三个部分经过FC 分别输出ROI featue vector,context feature vector,frame feature vector。

3、Two-Stream Network.

为了将指导模型组件与分类相结合,采用了双分支结构。在这种双流策略中,ROI的分类得分与其相应的Softmax定位得分重新加权。
分类分支将 F R O I F_{ROI} FROI作为输入,通过 F C c l s FC_{cls} FCcls输出分类分数 S ∈ R K ∗ C S\in{R^{K*C}} SRKC,C个类别,K个ROIs。定位分支将 F R O I F_{ROI} FROI F c o n t e x t F_{context} Fcontext作为输入,通过guidance models,输出定位分数 L ∈ R K ∗ C L\in{R^{K*C}} LRKC,之后 L L L通过softmax层,得到 [ σ ( L ) ] k c = e x p ( L k c ) ∑ k ′ = 1 K e x p ( L k ′ c ) [\sigma(L)]_{kc}=\frac{exp(L_{kc})}{{\sum_{k^{\prime}=1}}^{K}exp(L_{k^{\prime}c})} [σ(L)]kc=k=1Kexp(Lkc)exp(Lkc)
S S S σ ( L ) {\sigma}(L) σ(L)做element-wise得到最后的分数。
对所有ROI类分数进行求和,以获得图像类分数。 在训练期间,我们使用hinge loss:
在这里插入图片描述
在这里插入图片描述

4、Additive Model

在这里插入图片描述
受上下文信息的启发,鼓励网络选择语义上与上下文兼容的ROI。具体地说,我们引入了两个全连接的层FCROI和FC上下文,如图4(a)所示。每个ROI的定位分数通过层的输出相加获得。

5、 Contrastive Model

对比模型鼓励网络从上下文中选择一个突出的ROI。
如图4(b)所示,注意, F C R O I FC_{ROI} FCROI F C c o n t e x t FC_{context} FCcontext的权重共享。

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值