A-Fast-RCNN

默默学习的笨学生

于 2019-04-10 09:29:11 发布

阅读量344

点赞数

分类专栏：图像处理

图像处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

[CVPR 17 oral] A-Fast-RCNN： Hard Positive Generation via Adversary for Object Detection

简而言之个人观点：在原本faster-RCNN的基础上，利用ASND网络进行部分遮挡住原始图像，使得训练数据集会出现特殊被遮挡的图像和状态，以此在后面训练和实验的时候出现少概率的情况，并没有完全用到GAN博弈的思

paper link

Motivation

这篇文章提出了一种新的对手生成策略，通过训练提升检测网络对遮挡、形变物体的识别精度。

遮挡和形变是检测任务中影响模型性能的两个显著因素。增加网络对遮挡和形变的鲁棒性的一个方式是增加数据库的体量。但是由于遮挡的图片一般都处在图像分布的长尾部分，即便增加数据，遮挡和形变的图片仍是占比较少的部分。另一个思路就是使用生成网络产生遮挡和形变图片。然而遮挡和形变的情况太多，直接生成这些图片还是比较困难的事情。

在这篇文章中，作者的思路是训练一个对手网络，让这个网络动态产生困难的遮挡和形变样本。以遮挡为例，作者希望被训练的检测网络会认为哪里的遮挡更难以处理。之后去遮挡这些区域的特征，从而让检测网络努力学习这些困难的遮挡情况。对于形变的情况同理。

与其它提升检测网络性能的方法，如换用更强大的主干网络、使用自上而下的网络设计等相比，本文提出的方法则是考虑如何更加充分地利用训练数据。

Method

针对遮挡和形变两种情况，作者在Fast RCNN[1]的RoI pooling之后分别设计了ASDN (Adversarial Spatial Dropout Network)和ASTN (Adversarial Spatial Transformer Network)两个网络。其结构如下图所示：

ASDN

ASDN的目标是根据物体建议框中的内容，动态生成一个遮挡掩模。将掩模对应的特征置0后，能给后续的分类器制造尽可能大的麻烦，从而让分类器学习更难的遮挡样本。

为了得到ASDN，作者分以下几步进行训练：

训练迭代Fast RCNN约10K次，首先得到一个基本上可以进行检测的模型；
之后单独训练ASDN用来预测具体遮挡的部位。首先proposal被分割为9个格子。为了产生ASDN的训练信息，依次对这9个格子进行遮挡。遮挡后使分类损失最大的格子便是最值得去遮挡的格子。ASDN的训练损失函数便是去分类判断这9个格子，每个格子是不是最值得遮挡的那个；
ASDN的输出是一个分类概率组成的图。在使用输出结果的时候作者取分类为“最值得遮挡”的概率最高的1/2像素，随机选取这些像素中的1/3进行遮挡，剩下的2/3不遮挡，增加一定的随机因素；
之后作者将ASDN和Fast RCNN组合在一起进行端到端训练。

ASTN

ASTN使用和STN(Spatial Transformer Network[2])一样的网络结构。其优化目标和STN不同，即训练一种仿射变换，使得分类器无法正确分类。实际使用中，需要对输出的旋转角度大小加以约束，否则容易出现将物体上下颠倒的极端但是并不常见的情况。

在最终的使用时，ASDN和ASTN被级联组合在网络中。

Experiments

作者进行了一些列实验来证明提出方法的有效性。首先证明ASDN和ASTN对网络性能的提升作用，在VOC 2007上的结果如下图所示，其中FRCN指Fast RCNN：

针对ASDN，作者与随机对特征进行遮挡、每次迭代动态寻找最难部位遮挡、使用没有联合端到端训练的ASDN等三种方法进行了对比，结果如下：

同作为加强数据利用的方法，作者同OHEM[3]进行了对比。在VOC 2007数据集上，本文方法(71.4%)好于OHEM(69.0%)。但在VOC 2012上，本文方法(69.0%)逊于OHEM(69.8%)。作者解释该现象为两种方法分别强调不同层面的数据利用，是可以互补而不冲突的两种手段。将两者结合一起训练时，其结果(71.7%)达到了最好。