A-Fast-RCNN

[CVPR 17 oral] A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

简而言之个人观点:在原本faster-RCNN的基础上,利用ASND网络进行部分遮挡住原始图像,使得训练数据集会出现特殊被遮挡的图像和状态,以此在后面训练和实验的时候出现少概率的情况,并没有完全用到GAN博弈的思

 

 

 

paper link

Motivation

这篇文章提出了一种新的对手生成策略,通过训练提升检测网络对遮挡、形变物体的识别精度。

遮挡和形变是检测任务中影响模型性能的两个显著因素。增加网络对遮挡和形变的鲁棒性的一个方式是增加数据库的体量。但是由于遮挡的图片一般都处在图像分布的长尾部分,即便增加数据,遮挡和形变的图片仍是占比较少的部分。另一个思路就是使用生成网络产生遮挡和形变图片。然而遮挡和形变的情况太多,直接生成这些图片还是比较困难的事情。

在这篇文章中,作者的思路是训练一个对手网络,让这个网络动态产生困难的遮挡和形变样本。以遮挡为例,作者希望被训练的检测网络会认为哪里的遮挡更难以处理。之后去遮挡这些区域的特征,从而让检测网络努力学习这些困难的遮挡情况。对于形变的情况同理。

与其它提升检测网络性能的方法,如换用更强大的主干网络、使用自上而下的网络设计等相比,本文提出的方法则是考虑如何更加充分地利用训练数据。

Method

针对遮挡和形变两种情况,作者在Fast RCNN[1]的RoI pooling之后分别设计了ASDN (Adversarial Spatial Dropout Network)和ASTN (Adversarial Spatial Transformer Network)两个网络。其结构如下图所示:

ASDN

ASDN的目标是根据物体建议框中的内容,动态生成一个遮挡掩模。将掩模对应的特征置0后,能给后续的分类器制造尽可能大的麻烦,从而让分类器学习更难的遮挡样本。

为了得到ASDN,作者分以下几步进行训练:

  1. 训练迭代Fast RCNN约10K次,首先得到一个基本上可以进行检测的模型;
  2. 之后单独训练ASDN用来预测具体遮挡的部位。首先proposal被分割为9个格子。为了产生ASDN的训练信息,依次对这9个格子进行遮挡。遮挡后使分类损失最大的格子便是最值得去遮挡的格子。ASDN的训练损失函数便是去分类判断这9个格子,每个格子是不是最值得遮挡的那个;
  3. ASDN的输出是一个分类概率组成的图。在使用输出结果的时候作者取分类为“最值得遮挡”的概率最高的1/2像素,随机选取这些像素中的1/3进行遮挡,剩下的2/3不遮挡,增加一定的随机因素;
  4. 之后作者将ASDN和Fast RCNN组合在一起进行端到端训练。

ASTN

ASTN使用和STN(Spatial Transformer Network[2])一样的网络结构。其优化目标和STN不同,即训练一种仿射变换,使得分类器无法正确分类。实际使用中,需要对输出的旋转角度大小加以约束,否则容易出现将物体上下颠倒的极端但是并不常见的情况。

在最终的使用时,ASDN和ASTN被级联组合在网络中。

Experiments

作者进行了一些列实验来证明提出方法的有效性。首先证明ASDN和ASTN对网络性能的提升作用,在VOC 2007上的结果如下图所示,其中FRCN指Fast RCNN:

针对ASDN,作者与随机对特征进行遮挡、每次迭代动态寻找最难部位遮挡、使用没有联合端到端训练的ASDN等三种方法进行了对比,结果如下:

同作为加强数据利用的方法,作者同OHEM[3]进行了对比。在VOC 2007数据集上,本文方法(71.4%)好于OHEM(69.0%)。但在VOC 2012上,本文方法(69.0%)逊于OHEM(69.8%)。作者解释该现象为两种方法分别强调不同层面的数据利用,是可以互补而不冲突的两种手段。将两者结合一起训练时,其结果(71.7%)达到了最好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值