论文报告笔记（四） Towards Precise End-to-end Weakly Supervised Object Detection Network

最新推荐文章于 2022-02-14 18:11:31 发布

lzrrrrr

最新推荐文章于 2022-02-14 18:11:31 发布

阅读量3.6k

点赞数 5

分类专栏：论文笔记系列目标检测文章标签：计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/lzr_ps/article/details/103637585

版权

这篇论文介绍了弱监督目标检测方法，通过端到端网络结合引导注意力模块（GAM）、多实例学习（MIL分支）和回归分支，解决了弱标签下的定位问题。GAM用于提取位置信息，MIL分支如OICR提供类别建议，而Faster-RCNN进行位置回归。实验表明，这种方法在VOC数据集上达到了最先进的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

论文报告笔记（四） Towards Precise End-to-end Weakly Supervised Object Detection Network

论文报告笔记（四） Towards Precise End-to-end Weakly Supervised Object Detection Network

回归视觉相关，这篇是iccv2019的关于弱监督目标检测的论文，第一次接触弱监督学习，所以会讲的比较详细。（错误之处请评论指正）

弱监督学习

我们知道，一般的模型分为有监督、无监督和强化学习，那么弱监督是什么呢？
不同于有监督直接给出详细的标签值，弱监督学习只给出了样本的弱标签，即很容易获得且很粗泛的标签值（好吧我也不知道怎么形容）。
对于强监督目标检测来说，我们的标签值是每张图片上每个物体的类别（classes）和其位置（location）。
而对于弱监督目标检测，我们知道的仅仅是每张图片上有没有出现某一个物体，且没有该物体的位置。这种样本是很容易得到的（直接通过图像分类就能获得）。

WSDDN

弱监督的目标检测一般都通过多实例学习来解决。
WSDDN（Weakly supervised deep detection networks.）是2016年提出的一种解决弱监督目标检测的方法。
在这里插入图片描述网络输入是图像和由区域候选网络（region proposal）方法比如select search从源图像上得到的。该网络将在ImageNet上训练好的CNN网络结构去掉了一个pool5后接上了一个SPPNet，对proposal region 的feature maps进行归一化，接了两个fc层，之后分 recognition 和detection两路。后接的两个不同的softmax，生成的都是C * |R|大小的矩阵，分类通道是为了比较每个区域的类别得分，检测通道是为了比较每一个类别中更加具有信息性的是那个区域。
最终的类别得分确定了该物体的类别，候选框在原图像上的位置即为location信息。

OICR

OICR（OnlineInstanceClassiﬁerReﬁnement）是对WSDDN的一个改进，其网络架构为：
在这里插入图片描述左边的网络基本一样，但是在WSDDN的基础上，其多了k个调整模块（Instance classifer refinement），我们知道，在WSDDN中由于我们没有物体的位置标签来对候选区域的边界框的进行偏移值回归，所以IOU准确率是十分低的。那么我们怎么获得位置标签呢？
OICR是这么做的：对于一张图片的每一个类别，我们知道该类别的所有候选框和其类别分数，找出其中类别分数最高的候选框，然后逐一比较其他候选框与该框的IOU，IOU最大的候选框即作为位置标签进行反向传播边框偏移值，经过k次迭代来反复调整。
伪代码：
在这里插入图片描述该方法大大提高了预测边框的准确率（所以被作者采用）。

Towards Precise End-to-end Weakly Supervised Object Detection Network

Introduction

终于回到这篇论文了，作者基于前人的经验设计了该网络。
在弱监督目标检测领域，主流的算法为MIL+目标检测算法，即先通过多实例学习（MIL, Muti-instance learning，及上面介绍的两个方法）来进行一次检测，获得其粗略的标签值，然后通过这些标签值训练一个强目标检测器（Faster-RCNN等），是一个多阶段（muti phase）、由简到精的过程。而这会造成一些问题：
在这里插入图片描述如上图，上面是一个MIL+Faster-RCNN的检测器，由于MIL检测器的损失函数的非凸性导致了陷入了局部最优，生成了如上所示的错误（只检测到了猫的头），而Faster-RCNN是根据标签来进行训练，所以会使得最后得到的分类器是错误的。
所以在这篇论文中，作者做出如下贡献：
1.我们把这两个训练过程连接成一个端到端的网络来处理这个问题。（通过这种方式，在 MIL 检测器将焦点严重聚焦到小的可辨别部分之前，回归器能够开始调整预测框）
2.同时，（为了提高定位能力）将使用分类损失的引导式注意力模块添加到主干中，以有效地提取特征中的隐式位置信息。
3.实验结果达到了 SOTA

Contribution

整个网络架构如下：
在这里插入图片描述该网络主要由三部分组成： 1.引导注意力模块（GAM）
2.MIL分支（OICR）
3.回归分支（fasterRCNN）
给定输入图像，首先使用 GAM 从 CNN 网络中提取增强特征图。然后由 ROI pooling 处理生成的区域送到 MIL 分支和回归分支。MIL 分支建议的目标类别和位置信息被用作回归分支的伪 GT，以进行位置回归和分类。

引导注意力模块GAM

首先我们介绍普通的空间注意力模块：
先在输入图上卷积提取出一个特征图 $\in R^{H\times W\times D}$ 作为注意力模块的输入，然后归一化得到 $A\in D^{H\times W}$ ,然后乘上 $X$ 得到注意力特征图 $X_{a}\in R^{H\times W\times D}$

最低0.47元/天解锁文章