A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

最新推荐文章于 2024-04-22 15:12:06 发布

fool-zz

最新推荐文章于 2024-04-22 15:12:06 发布

阅读量3.9k

点赞数 4

文章标签：深度学习卷积神经网络目标检测

本文链接：https://blog.csdn.net/qq_14839543/article/details/72323934

版权

这篇论文作者在Fast RCNN的基础上，运用对抗生成网络GAN的思想，加入了两个对抗网络来加强Fast RCNN算法的鲁棒性，下面的内容是这篇文章的翻译，我已经修改过大部分的内容使得读起来比较通顺，接下来准备研究代码，根据作者的思想看看能否加入一点自己的东西。

代码：https://github.com/xiaolonw/adversarial-frcnn

原文地址：https://arxiv.org/pdf/1704.03414.pdf

由于图插不进去，各位可以参照原文中的图来进行论文的理解

A-Fast-RCNN:Hard Positive Generation via Adversary for Object Detection

经过对抗的生成“难”正样本的目标检测算法

XiaolongWang Abhinav Shrivastava Abhinav Gupta

TheRobotics Institute, Carnegie Mellon University

摘要

我们如何学习一个对于遮挡和形变不变的目标检测器？我们目前的解决方案是使用数据驱动策略 - 收集在不同条件下具有目标实例的大规模数据集。我们的希望是最终的分类器可以使用这些例子来学习不变性。但是数据集真的能覆盖所有的情况吗？我们认为，像分类一样，遮挡和目标变形也遵循长尾理论。一些遮挡和变形非常罕见，几乎不发生;但是我们想要学习对一个这样的变形具有不变性的模型。在本文中，我们提出了一个替代解决方案。我们建议学习一个对抗网络，生成具有遮挡和变形的样本。对抗器的目标是生成让目标检测器难以进行分类的样本。在我们的框架中，原始检测器和对抗器都是以联合的方式学习的。我们的实验结果表明，与Fast-RCNN网络相比，VOC07上的mAP升幅为2.3％，VOC2012数据集有2.6％mAP提升。我们还发布了本文的代码1。

引言

目标检测的目的是为汽车等概念学习视觉模型，并使用该模型将图像中的这些概念定位。这需要模型能够对照明，变形，遮挡和其他类内变化具有不变性。处理这些不变性的标准范例是收集在不同条件下具有目标实例的大规模数据集。例如，COCO数据集[18]在不同的遮挡和变形下有超过10K个的汽车样本。希望这些样本捕捉到视觉概念的所有可能的变化，然后分类器可以有效地模拟对它们的不变性。我们相信，这是卷积网络在目标检测任务中取得如此成功的主要原因之一：它们能够使用所有这些数据来学习不变性。

然而，像目标类别一样，我们认为即使遮挡和变形也遵循长尾分布（long-tail distribution）。也就是说，一些遮挡和变形是非常罕见的，它们在大规模数据集中发生的机会很小。例如，考虑如图1所示的遮挡。我们注意到，一些遮挡比其他情况发生得更频繁（例如，停车库中其他汽车的遮挡比从冷气机更频繁）。类似地，动物中的一些变形是常见的（例如坐姿/站立姿态），而其他变形是非常罕见的。因此，我们如何学习这种罕见/不常见的遮挡和变形的不变性？在收集更大的数据集时，一个可能的解决方案是由于长尾统计数据而不太可能扩展。

图1：我们认为遮挡和变形均遵循长尾分布。一些遮挡和变形是罕见的。在本文中，我们建议使用对抗网络来产生具有遮挡和变形的示例，这将使目标检测器难以分类。随着目标检测器越来越好，我们的对抗网络就会适应。我们通过实证的这种对抗学习策略来提高检测的准确性。

最近，生成图像（或像素）已经有很多工作[3,8,26]。了解这些罕见的事件的一个可能方式是通过从尾部分布进行采样来生成逼真的图像。然而，这不是一个可行的解决方案，因为生成图像需要这些罕见的事件的训练样本的开始部分。另一种解决方案是产生所有可能的遮挡和变形，并从中训练物体检测器。然而，由于变形和遮挡的空间是巨大的，这不是可扩展的解决方案。已经表明，使用所有样本通常不是最佳解决方案[33,39]，并且选择硬例子更好。有没有办法可以产生具有不同遮挡和变形的“硬”正样本，而不产生像素本身？

训练另一个网络的方法是：通过在空间上阻挡某些特征图或通过操作特征响应来创建空间变形来创建难点的对抗器。这个对抗器会预测一下像Fast-RCNN这样的检测器会是什么样子，而Fast-RCNN又会适应自己的学习来分类这些对抗性的例子。这里的主要思想是在卷积特征空间中创建对抗性样本，而不是直接生成像素，因为后者是一个更难的问题。在我们的实验中，与标准的Fast-RCNN管道相比，我们显示出对抗性fast RCNN（A-Fast-RCNN）的性能的实质性改进。

相关工作

近年来，在物体检测领域取得了显着的进步。这些近年来的成功建立在从ImageNet分类[2]的任务中学到的强大的深层特征[16]。R-CNN [7]和OverFeat[30]目标检测系统在PASCAL VOC [4]上以其令人印象深刻的结果引起了这一波学习潮流。并且近年来，出现了更有计算效率的版本，可以有效地训练更大的数据集，如COCO [18]。例如，Fast-RCNN [6]为不同的候选区域共享卷积层，以提供加速，faster RCNN [28]和R-FCN [15]，在框架中引入区域生成网络，从而实现完全端到端。基于Overfeat检测器的滑动窗口范例，出现了其他计算效率高的方法，如YOLO [27]，SSD [19]和DenseBox [12]。这些方法之间的比较在[11]中有所讨论。

最近的研究集中在开发更好的物体检测系统的三个主要方向。第一个方向依赖于改变这些网络的基础架构。中心思想是使用更深层次的网络不仅可以导致分类改进[2]，而且可以导致目标检测[4,18]性能提高。最近在这方面的一些工作包括ResNet [9]，Inception-ResNet [38]和ResNetXt [43]。

第二个研究领域是使用上下文推理（充分利用各个卷积层的特征），推理代理任务和其他自顶向下机制来改善目标检测的表示[1,5,17,24,36,34,45]。例如，[32]使用分割作为上下文目标检测器的一种方法，并向初始层提供反馈。[1]使用跳过网络架构，并结合上下文推理使用来自多层表示的特征。其他方法包括使用自上而下的功能来整合上下文和更细的细节[17,24,34]，这导致改进的检测。

改进检测系统的第三个方向是更好地利用数据本身。经常认为，进来成功的目标检测器是更好的视觉表示和大规模数据用于学习的可用性的产物。因此，第三类方法尝试探索如何更好地利用数据来提高性能。一个例子是将硬实例挖掘纳入到基于训练区域的ConvNets的有效和高效的设置中[33]。发现训练难点的其他例子包括[20,35,41]。

我们的工作遵循第三个研究方向，重点是更好地利用数据。然而，我们试图生成样本，而不是尝试筛选数据来找到硬实例，而Fast-RCNN将很难对这些生成的样本检测/分类。我们限制新的正样本生成器的空间来增加数据集中的现有样本的遮挡和形变。具体来说，我们学习对抗网络，试图预测会导致Fast-RCNN错误分类的遮挡和变形。因此，我们的工作与近期在对抗学习中的很多工作有关[3,8,13,21,22,23,26,29,37]。例如，已经提出了用于改善图像生成的对抗学习的技术[26]以及用于训练更好的图像生成模型[29]。[29]还强调，对抗学习可以改善半监督环境中的图像分类。然而，这些作品中的实验是针对比物体检测数据集复杂度低的数据进行的，其中图像生成结果显着劣化。我们的工作也与最近关于机器人对抗性训练的工作有关[25]。然而，我们不是用对抗来更好地监督，而是用对抗来生成一个硬的样本。

目标检测的对抗学习

我们的目标是学习对不同条件（如遮挡，变形和照明）都具有鲁棒性的目标检测器。我们假设即使在大规模数据集中，也不可能覆盖所有潜在的遮挡和变形。我们采取替代方法，而不是严重依赖数据集或筛选数据来寻找硬实例。我们积极地生成让目标象检测器难以识别的样本。然而，相比于在像素空间中生成数据，我们专注于一个有限的空间来产生：遮挡和变形。

图2：我们的ASDN的网络架构及其与FastRCNN方法的结合。我们的ASDN网络使用RoI池层提取的功能作为输入图像补丁。 ASDN网络比预测遮挡/退出掩码，然后将其用于丢弃特征值并传递到Fast-RCNN的分类塔。

在数学上，让我们假设原始目标检测器网络被表示为F（X），其中X是一个候选区域。检测器给出两个输出，Fc其表示类别概率输出，F l表示预测的边界框位置。让我们假设X的真值类是C，空间位置是L.我们的原始检测器损失函数可以写成，

其中第一项是SoftMax损失，第二项是基于预测的边界框位置和真值框位置（仅前景类）的损失。

让我们假设对抗网络被表示为A（X），考虑到在图像I上计算的特征X，生成新的对抗样本。检测器的损失函数保持不变，因为小批次现在包括较少的原始和一些对抗性样本。

然而，对抗网络必须学习预测会让检测器误测的特征。我们通过以下损失函数训练这个对抗网络，

因此，如果对抗网络生成的特征对于检测器来说很容易进行分类，则对于对抗网络而言，它们将获得高损失。另一方面，如果在对抗特征生成之后，对于检测器是难以分类的，则对于检测器而言，我们获得高损失，并且对于对抗网络的损失较低。

A-Fast-RCNN：算法细节

我们现在描述我们框架的细节。我们首先简要介绍我们的基本检测器Fast-RCNN。其次是描述对抗生成网络的空间。特别是在本文中，我们专注于生成不同类型的遮挡和变形。最后，在第5节中，我们描述了我们的实验设置，并显示了显示基线显着改进的结果。

1、 Fast RCNN回顾

我们基于Fast-RCNN框架进行目标检测[6]。Fast RCNN由两部分组成：（i）用于特征提取的卷积网络;（ii）具有RoI池化层和几个完全连接的层的RoI网络，其输出目标类别概率和边界框。

给定输入图像，Fast-RCNN的卷积网络将整个图像作为输入，并产生卷积特征图作为输出。由于操作主要是卷积和最大池化，输出特征图的空间尺寸将根据输入的图像大小而改变。给定特征图，RoI-pooling层用于将候选区域[40]投影到特征空间上。RoI池化层将对每个目标候选区域进行裁剪并调整大小以生成一个固定大小的特征向量。然后将这些特征向量通过完全连接的层。完全连接的层的输出是：（i）包括背景类的每个目标类的概率;和（ii）边界框坐标。

对于训练，SoftMax损失和回归损耗分别应用于这两个输出，梯度通过所有层反向传播以执行端到端学习。

2、对抗网络设计

我们考虑了与Fast-RCNN（FRCN）检测器竞争的对抗网络生成的两种特征。第一种生成的类型是遮挡。在这里，我们提出对抗空间丢弃网络（ASDN），它学习如何封闭给定的目标，使得FRCN难以对其进行分类。我们在本文中考虑的第二种类型的生成是变形。在这种情况下，我们提出了对抗空间变换网络（ASTN），它学习如何旋转物体的“部件”，使其难以被检测器识别。通过与这些网络的竞争和克服障碍，FRCN学会以鲁棒的方式处理物体遮挡和变形。请注意，所提出的网络ASDN和ASTN在训练期间与FRCN一起同时学习。联合训练能防止检测器对固定生成的特征产生过拟合。

相比于在输入图像上产生遮挡和变形，我们发现在特征空间上的操作更有效率。因此，我们设计对抗网络来修改特征，使目标变得更难识别。请注意，这两个网络仅在训练过程中应用才能改进检测器。我们将首先单独介绍ASDN和ASTN，然后在统一的框架中将它们组合在一起。

2.1 产生遮挡的对抗空间丢弃网络（ASDN）

我们提出一个对抗空间丢弃网络（ASDN）来生成基于前景目标深层特征上的遮挡。回想一下，在标准的Fast-RCNN管道中，我们可以在RoI-pooling层之后获得每个前景目标候选区域的卷积特征。我们使用这些基于区域的特征作为对抗网络的输入。对于一个目标的特征，ASDN将尝试生成一个掩码，指示要丢弃的特征的哪些部分（分配零），以便检测器无法识别目标。

更具体地，给定一个目标，我们提取具有尺寸d×d×c的特征X，其中d是空间维度，c表示通道数（例如，AlexNet中的c= 256，d = 6）。给定这个特征，我们的ASDN将预测掩码M，其中M在阈值后d×d值为0或1。在图3（b）中，我们可以看出阈值之前的一些掩码。我们将M_ij表示为掩码的第i行和第j列的值。类似地，X_ijk表示特征的第k通道的i，j位置处的值。如果Mij = 1，则我们删除特征图X的相应空间位置中的所有通道的值，即X_ijk = 0，∀k（表示任意的k通道）。

网络架构。我们使用标准的Fast-RCNN（FRCN）架构。我们使用ImageNet [2]预训练的网络来初始化我们的网络。对抗网络与FRCN共享卷积层和RoI池化层，然后使用其自己独立的完全连接的层。请注意，由于我们正在优化两个网络以完成相反的任务，因此我们不会在ASDN中与Fast-RCNN共享参数。

模型预训练。在我们的实验中，我们发现在使用它来改进Fast-RCNN之前，先训练ASDN以生成遮挡物是重要的。由Faster RCNN检测器[28]驱动，我们在这里应用逐步训练。我们首先训练我们的Fast-RCNN检测器，不用ASDN进行10K次迭代。由于检测器现在已经具有对数据集中目标的感知，我们在固定检测器所有层的前提下训练ASDN模型来生成遮挡。

初始化ASDN网络。为了初始化ASDN网络，给定具有大小为d×d的特征图X，我们在特征图X上应用尺寸为d/3×d/3的滑动窗口。我们通过将滑动窗口投影到原图像来表示滑动窗口过程，参照图3（a）。对于每个滑动窗口，我们将空间位置被覆盖的所有通道的值丢弃掉，并为候选区域生成一个新的特征向量。然后将该特征向量传递到分类层以计算损失。基于所有d/3×d/3滑动窗口的损失值，我们选择损失最大的那个滑动窗口。该窗口然后被用来生成单个d×d掩码（窗口位置为1，其他像素为0）。我们为n个正的候选区域生成这些空间掩码，并为我们的对抗丢弃网络获得n对训练样本{（X¹，M¹），...，（Xⁿ，Mⁿ}），我们的想法是ASDN应该学会生成可以使检测器网络具有高损失的掩码，在训练ASDN时应用二进制交叉熵损失，

其中A_ij（X^p）表示对于输入特征图X^p的（i，j）位置中ASDN网络的输出。我们训练ASDN使用这个损失函数进行10K次迭代。我们得到网络开始认识到哪一部分目标对于分类是重要的，如图3（b）所示。还要注意，我们的输出掩码与[31]中提出的注意掩码不同，它们使用注意机制来促进分类。在我们的实验中，我们使用掩码遮挡部分特征，使分类变得更加困难。

图4：组合ASDN和ASTN网络的网络架构。首先创建遮挡孕妈，然后旋转通道以产生用于训练的硬例子。

阈值采样。ASDN网络生成的输出不是二进制掩码，而是连续的热图。相对于使用直接阈值，我们使用重要性抽样来选择顶部1/3像素进行掩码生成。注意，采样过程在训练过程中包含样本中的随机性和多样性。更具体地说，给定一个热图，我们首先选择具有最高概率的顶部1/2像素，并随机选择其中的1/3像素来分配值1，其余的2/3像素被设置为0。

联合学习。对于到预训练的ASDN和Fast-RCNN模型，我们在每次训练迭代中共同优化这两个网络。对于训练Fast-RCNN检测器，在正向传播期间，我们首先在RoI池化层之后的特征上使用ASDN生成掩码。我们通过采样来生成二进制掩码，并使用它们来删除在RoI-pooling层之后的特征中的值。然后，我们将修改后的特征进行前向训练并计算损失，并对检测器进行端到端的训练。请注意，虽然我们的特征被修改，但是标签依然保持不变。通过这种方法，我们为训练检测器生成了“更难”和更多样化的样本。

对于ASDN的训练，由于我们应用采样策略将热图变换为二进制掩码，这是不可微分的，因此我们无法从分类损失中直接计算梯度。或者，我们采用REINFORCE [42]方法的灵感。我们计算哪些二进制掩码导致Fast-RCNN分类分数显着下降。我们只使用那些硬样本作为真值来训练对抗网络，并使用公式1所示的损失函数。

2.2 对抗空间变换网络（ASTN）

我们现在介绍对抗空间变换网络（ASTN）。我们的关键思想是在目标特征上创建变形，并使检测器的目标识别变得困难。我们的网络建立在[14]中提出的空间变换网络（STN）上。在他们的工作中，STN被提出来使特征变形，使分类更容易。而我们的网络正在完成相反的任务。通过与我们的ASTN网络竞争，我们可以训练一个更好的对变形具有鲁棒性的检测器。

STN概述。空间变换网络[14]有三个部分：定位网络，网格生成器和采样器。对于输入的特征图，定位网络将估计要变形的量（例如，旋转度，平移距离和缩放因子）。这些变量将被用作在特征图上的网格生成器和采样器的输入。输出是变形的特征图。请注意，我们只需要了解定位网络中的参数。STN的关键贡献之一是使整个过程是可微分的，从而可以通过反向传播直接优化分类目标的定位网络。有关更多技术细节，请参阅[14]。

对抗STN。在我们的对抗空间变换网络中，我们专注于特征图旋转。也就是说，在RoI-pooling层后给出了一个特征图作为输入，我们的ASTN将学习旋转特征图，使其更难识别。我们的定位网络由3个完全连接的层组成，其中前两层使用来自ImageNet预训练网络的fc6和fc7层进行初始化，就像我们的对抗空间丢弃网络一样。

我们共同训练ASTN和Fast-RCNN检测器。对于训练检测器，类似于ASDN中的过程，RoI-pooling之后的特征首先由ASTN进行转换，并转发到较高层以计算SoftMax损失。为了训练ASTN，我们优化它以便检测器将前景目标分类为背景类。与ASDN不同，由于空间变换是可以微分的，我们可以直接使用分类损失来对ASTN的定位网络中的参数进行回溯和微调。

实现细节。在我们的实验中，我们发现限制ASTN的旋转度非常重要。否则，很容易将目标上下颠倒，这在大多数情况下是最难识别的。我们将旋转度限制在顺时针和逆时针10度以内。相比于沿同一方向旋转所有特征图，我们将通道尺寸上的特征图划分为4个块，并为不同的块估计4个不同的旋转角度。由于每个通道对应于一种类型的激活特征，旋转通道分别对应于导致变形的不同方向的物体的旋转部分。我们还发现，如果我们对所有特征图使用一个旋转角度，ASTN将经常预测最大的角度。通过使用4个不同的角度而不是一个，我们增加了任务的复杂性，防止网络预测琐碎的变形。

2.3 对抗融合

两个对抗网络ASDN和ASTN也可以在同一个检测框架中组合在一起并联合训练。由于这两个网络提供不同类型的信息。通过同时竞争这两个网络，我们的检测器变得更加健壮。

我们将这两个网络以顺序的方式组合到Fast-RCNN框架中。如图4所示，在RoI-pooling之后提取的特征映射首先进入到我们的ASDN，ASDN会删除一些激活值。修改后的特征由ASTN进一步变形。

实验

我们对PASCAL VOC 2007，PASCAL VOC 2012 [4]和MS COCO [18]数据集进行了实验。按照标准做法，我们对PASCAL VOC2007数据集进行大部分的烧蚀研究。我们还报告了我们在PASCAL VOC 2012和COCO数据集中的数据。最后，我们比较了我们的方法和在线硬样本挖掘（OHEM）[33]的方法。

1 实验设置

PASCAL VOC。对于VOC数据集，我们使用'train-val'数据集训练和'test'数据集进行测试。我们遵循标准的Fast-RCNN [6]中的大部分设置进行训练。我们应用SGD进行80K次迭代来训练我们的模型。学习率从0.001开始，在60K次迭代后下降到0.0001。我们在训练期间使用选择性搜索产生候选区域[40]。

MS COCO。对于COCO数据集，我们使用'train-val35k'数据集训练和'minival'数据集进行测试。在训练Fast-RCNN [6]时，我们应用SGD进行320K次迭代。学习率以0.001开始，280K次迭代后降至0.0001。对于目标候选区域，我们使用DeepMask候选区域[24]。

在所有的实验中，我们的小批次的大小为来自两张图片的256个候选区域。我们遵循Fast-RCNN的火炬实施[44]。通过这些设置，我们的基线数字略好于[6]中报道的数字。为了防止Fast-RCNN对修改后的数据产生过拟合，我们在一个批次中提供一张没有任何遮挡/变形的图片并将我们的方法应用到批次中的另一张图片。

2 PASCAL VOC 2007结果

我们报告了在训练Fast-RCNN期间使用ASTN和ASDN的结果，参照表1。对于AlexNet架构[16]，我们实施的基线达到57.0％的mAP。基于此设置，我们与ASTN模型的联合学习达到58.1％，与ASDN模型联合学习提高到了58.5％的表现。由于这两种方法相互补充，将ASDN和ASTN结合到我们的完整模型中，另外提高到了58.9％的mAP。

对于VGG16架构[36]，我们进行了同样的实验。首先，我们的基线模型达到了69.1％的mAP，远高于[6]中报告的66.9％。基于此实施，我们的ASTN模型联合学习得到了69.9％的mAP，ASDN模型达到了71.0％的mAP。我们的ASTN和ASDN的完整模型将性能提高到71.4％。我们的最终结果在基础模型上提高了2.3％。

为了表明我们的方法也适用于非常深的CNN，我们将ResNet-101 [9]架构应用于训练Fast-RCNN。如表1最后两行所示，Fast-RCNN与ResNet-101的性能为71.8％mAP。通过对抗性训练，结果是73.6％的mAP。我们可以看到，我们的方法不断改善不同类型架构的性能。

2.1烧蚀分析

ASDN分析。我们比较我们的对抗空间丢弃网络与使用AlexNet架构的训练中的各种丢弃/遮挡策略。我们尝试的第一个简单基线是RoI-Pooling后的特征的随机空间丢弃。为了公平的比较，我们屏蔽了与ASDN网络中相同数量神经元的激活值。如表2所示，随机丢失的表现为57.3％mAP，略好于基线。我们比较的另一个丢弃策略是我们在训练ASDN时应用的类似策略（图3）。我们详细列举了不同种类的遮挡，并在每次迭代中选择最好的遮挡进行训练。表现为57.7％的mAP（Ours（hard dropout）），略好于随机丢弃。

我们发现穷举策略只能探索非常有限的遮挡策略空间，我们使用预先训练的ASDN网络来代替它。然而，当我们固定ASDN的参数时，我们发现性能是57.5％的mAP（Ours（fixed ASDN）），这不如穷尽的策略。原因是固定的ASDN没有收到更新Fast-RCNN的任何反馈，而详尽的搜索得到了反馈。如果我们一起共同学习ASDN和Fast-RCNN，我们可以获得58.5％的mAP，与没有丢弃策略的基线相比，mAP提高1.5％。这个证据表明，ASDN和Fast-RCNN的共同学习是有所不同的。

ASTN分析。我们将对抗空间变换网络与目标候选区域的随机抖动进行了比较。增强包括对Fast-RCNN进行训练的尺寸的随机变化，纵坐标和旋转。使用AlexNet，使用随机抖动的性能为57.3％mAP，而ASTN结果为58.1％。使用VGG16，随机抖动有68.6％ｍAP而ASTN有69.9％mAP。对于这两种架构，ASTN的模型比随机抖动更好。

2.2基于类别的分析

图5显示了每个类别的性能如何随遮挡和变形而变化的图表。有趣的是，ASTN和ASDN似乎有所帮助的类似乎是类似的。似乎植物和瓶子的表现随着对抗训练而提高。然而，将两个变换组合在一起似乎改善了某些类别的性能，这些类别通过单独使用遮挡或变形而受到伤害。具体来说，通过结合两个对抗过程来帮助汽车和飞机等类。

2.3定性结果

图6显示了诊断代码的方法的一些假阳性[10]。这些例子是手工挑选的，只能出现在对抗学习的误报列表中，而不是原来的Fast-RCNN。这些结果表明对抗学习的一些缺点。在某些情况下，对抗网络生成与其他目标类别相似的导致过度泛化的变形或遮挡。例如，我们的方法隐藏了自行车的轮子，导致轮椅被分类为自行车。

3 PASCAL VOC 2012 and MS COCO上的结果

我们在表3中显示了我们使用VGG16在PASCALVOC 2012数据集中的结果，我们的基线表现为66.4％。我们通过ASDN和ASTN联合学习的方法为69.0％，mAP提升了2.6％。这再次表明，使用VGG对VOC2012的性能提升是显着的。我们还观察到，我们的方法提高了VOC 2012以外的所有类别的性能。我们相信这可能是由于VOC2012的多样化。

我们最后展示在MS COCO数据集中的结果。使用VGG16架构的基准方法VOC得到42.7％AP⁵⁰，标准COCO25.7％。通过应用我们的方法，我们分别在VOC和COCO数据集上实现了46.2％和27.1％的AP。

4 对比OHEM

我们的方法也与在线硬样本挖掘（OHEM）方法[33]有关。我们的方法允许我们对数据集中可能不存在的数据点进行采样，而OHEM受数据集约束。然而，由于它们是从真实图像中提取的，所以OHEM具有更加逼真的特征。为了比较，在VOC2007数据集上我们的方法（71.4％）优于中的OHEM（69.9％）。然而，我们的结果（69.0％）在VOC2012中不如OHEM（69.8％）。由于这两种方法是在训练中生成或选择不同类型的特征，我们认为它们应该是互补的。为了证明这一点，我们使用这两种方法的集合，并将其与VOC 2012的独立的OHEM和Ours集合进行比较。因此，两种方法的集合实现了71.7％的mAP，而两个OHEM模型的集合（71.2 ％）或我们的两个模型（70.2％）不是很好，表明两种方法的互补性。

总结

物体检测的长期目标之一是学习对于遮挡和变形不变的物体模型。当前的方法着重于通过使用大规模数据集来学习这些不变性。在本文中，我们认为，像类别一样，遮挡和变形也遵循长尾分布：其中一些是非常罕见的，即使在大规模数据集中也难以采样。我们建议使用对抗学习策略来学习这些不变性。主要思想是与原始目标检测器一起学习对抗性。这个对抗性在飞行中创造了不同的遮挡和变形的例子，使得这些遮挡/变形使原始目标检测器难以分类。我们的对抗网络不是在像素空间中生成样本，而是修改特征以模拟遮挡和变形。我们在实验中显示，这种对抗学习策略对VOC和COCO数据集的检测性能提供了显着的提升。

fool-zz

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

这篇论文作者在Fast RCNN的基础上，运用对抗生成网络GAN的思想，加入了两个对抗网络来加强Fast RCNN算法的鲁棒性，下面的内容是这篇文章的翻译，我已经修改过大部分的内容使得读起来比较通顺，接下来准备研究代码，根据作者的思想看看能否加入一点自己的东西。代码：https://github.com/xiaolonw/adversarial-frcnnA-Fast-RCNN:H
复制链接

扫一扫