论文报告笔记(四) Towards Precise End-to-end Weakly Supervised Object Detection Network

论文报告笔记(四) Towards Precise End-to-end Weakly Supervised Object Detection Network

回归视觉相关,这篇是iccv2019的关于弱监督目标检测的论文,第一次接触弱监督学习,所以会讲的比较详细。(错误之处请评论指正)

弱监督学习

我们知道,一般的模型分为有监督、无监督和强化学习,那么弱监督是什么呢?
不同于有监督直接给出详细的标签值,弱监督学习只给出了样本的弱标签,即很容易获得且很粗泛的标签值(好吧我也不知道怎么形容)。
对于强监督目标检测来说,我们的标签值是每张图片上每个物体的类别(classes)和其位置(location)。
而对于弱监督目标检测,我们知道的仅仅是每张图片上有没有出现某一个物体,且没有该物体的位置。这种样本是很容易得到的(直接通过图像分类就能获得)。

WSDDN

弱监督的目标检测一般都通过多实例学习来解决。
WSDDN(Weakly supervised deep detection networks.)是2016年提出的一种解决弱监督目标检测的方法。
在这里插入图片描述网络输入是图像和由区域候选网络(region proposal)方法比如select search从源图像上得到的。该网络将在ImageNet上训练好的CNN网络结构去掉了一个pool5后接上了一个SPPNet,对proposal region 的feature maps进行归一化,接了两个fc层,之后分 recognition 和detection两路。后接的两个不同的softmax,生成的都是C * |R|大小的矩阵,分类通道是为了比较每个区域的类别得分,检测通道是为了比较每一个类别中更加具有信息性的是那个区域。
最终的类别得分确定了该物体的类别,候选框在原图像上的位置即为location信息。

OICR

OICR(OnlineInstanceClassifierRefinement)是对WSDDN的一个改进,其网络架构为:
在这里插入图片描述左边的网络基本一样,但是在WSDDN的基础上,其多了k个调整模块(Instance classifer refinement),我们知道,在WSDDN中由于我们没有物体的位置标签来对候选区域的边界框的进行偏移值回归,所以IOU准确率是十分低的。那么我们怎么获得位置标签呢?
OICR是这么做的:对于一张图片的每一个类别,我们知道该类别的所有候选框和其类别分数,找出其中类别分数最高的候选框,然后逐一比较其他候选框与该框的IOU,IOU最大的候选框即作为位置标签进行反向传播边框偏移值,经过k次迭代来反复调整。
伪代码:
在这里插入图片描述该方法大大提高了预测边框的准确率(所以被作者采用)。

Towards Precise End-to-end Weakly Supervised Object Detection Network

Introduction

终于回到这篇论文了,作者基于前人的经验设计了该网络。
在弱监督目标检测领域,主流的算法为MIL+目标检测算法,即先通过多实例学习(MIL, Muti-instance learning,及上面介绍的两个方法)来进行一次检测,获得其粗略的标签值,然后通过这些标签值训练一个强目标检测器(Faster-RCNN等),是一个多阶段(muti phase)、由简到精的过程。而这会造成一些问题:
在这里插入图片描述如上图,上面是一个MIL+Faster-RCNN的检测器,由于MIL检测器的损失函数的非凸性导致了陷入了局部最优,生成了如上所示的错误(只检测到了猫的头),而Faster-RCNN是根据标签来进行训练,所以会使得最后得到的分类器是错误的。
所以在这篇论文中,作者做出如下贡献:
1.我们把这两个训练过程连接成一个端到端的网络来处理这个问题。 (通过这种方式,在 MIL 检测器将焦点严重聚焦到小的可辨别部分之前,回归器能够开始调整预测框)
2.同时,(为了提高定位能力)将使用分类损失的引导式注意力模块添加到主干中,以有效地 提取特征中的隐式位置信息。
3.实验结果达到了 SOTA

Contribution

整个网络架构如下:
在这里插入图片描述该网络主要由三部分组成: 1.引导注意力模块(GAM)
2.MIL分支(OICR)
3.回归分支(fasterRCNN)
给定输入图像,首先使用 GAM 从 CNN 网络中提取增强特征图。然后由 ROI pooling 处理生 成的区域送到 MIL 分支和回归分支。MIL 分支建议的目标类别和位置信息被用作回归分支的 伪 GT,以进行位置回归和分类。

引导注意力模块GAM

首先我们介绍普通的空间注意力模块:
先在输入图上卷积提取出一个特征图 X ∈ R H × W × D X \in R^{H\times W\times D} XRH×W×D 作为注意力模块的输入,然后归一化得到 A ∈ D H × W A\in D^{H\times W} ADH×W ,然后乘上 X X X 得到注意力特征图 X a ∈ R H × W × D X_{a}\in R^{H\times W\times D} Xa

  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值