Generative Adversarial Learning Towards Fast Weakly Supervised Detection

最新推荐文章于 2023-04-15 12:37:04 发布

而濡木染

最新推荐文章于 2023-04-15 12:37:04 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习文章标签： Detection Weakly Supervised

深度学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

Generative Adversarial Learning Towards Fast Weakly Supervised Detection

Abstract

近年来，弱监督对象检测已经吸引了广泛的研究工作。在不需要注释边界框的情况下，现有方法通常遵循具有在线强制阶段的两级/多级管道来提取对象提议，这比诸如SSD的快速全监督对象检测器慢一个数量级[31]和YOLO [34]。在本文中，我们通过提出一种新的生成性广告 - 学习范式来加速在线弱监督物体探测器的数量级。在所提出的范例中，生成器是一阶段对象检测器，用于从图像生成边界框。为了指导对象级生成器的学习，引入了一个代理器来挖掘高质量的边界框以进行训练。我们进一步将结构相似性损失与对抗性损失结合到训练目标中，这解决了由代理人产生的边界框可能无法很好地捕捉其基本事实的挑战。我们的单级探测器在检测精度方面优于所有现有方案，以每秒118帧的速度运行，比最先进的弱监督探测器快438倍[8,30,15,27， 45。该代码即将公开发布。

1 Introduction

弱监督物体探测（WSD）近年来引起了广泛的关注[8,28,45,10,49,27]。 WSD的一个显着优点在于消除了对象边界框的劳动密集型注释的必要性。相反，它利用了可从Internet广泛获得的图像级注释。为了利用这种图像级弱监督，大多数以前的方法[49,8,45]使用多实例学习（MIL）管道。

在此管道中，图像中的对象提议被视为实例以形成包，其标签从相应的图像级注释中分配。然后，目标是估计包含给定对象的实例的概率。上述管道有两个主要缺点：首先，在获取前台提议时，实例被认为是独立的。实例之间的相关性通常被忽略，优化可能会收敛到不合需要的局部最小值[2]。其次，现有方法在检测中遵循两个/多个阶段的过程，使得相应的推理效率低下。特别是，它需要首先提取对象提议[46,55,3]，因此不能应用于实时应用程序。此外，在训练和测试中，图像通常用五个刻度和水平翻转[8,28]进行增强，这进一步显着增加了在线计算复杂度，有时甚至达到一个数量级。

为克服上述局限，本文研究了在线WSD快速物体探测器。我们的目标是实现与最先进的快速全监督探测器（如YOLO [35]或SSD [31]）相当的速度，具有相当（甚至更好）的探测精度。特别是，我们在在线检测中使用一阶段过程，这丢弃了对象提议的必要性。我们通过提出一种新的生成性对抗性学习（GAL）范式来实现这一目标，该范式被称为快速弱受监督检测的生成性对抗性学习（GAL-fWSD），其将WSD的推断视为生成过程，由鉴别器监督。特别地，鉴别器D学习区分边界框的“真实”分布与“伪”分布，而生成器G通过从图像中检测高质量边界框来学习欺骗D. 介绍了两种具体设计：

首先，由于WSD没有地面实况边界框的注释，我们引入了一个代理模块F，用于仅使用图像级注释从训练数据中挖掘有希望的边界框。它解决了仅使用全局标签对单个实例进行建模的难度。该关键模块聚合各个对象提案的响应以估计概率分布，然后用于改进训练G的提议。

其次，为了解决低效率的缺点，将学习的发生器G直接用作一级检测器。据我们所知，这是第一次尝试在弱监督环境中学习真正的单级物体探测器。如SSD [31]和YOLO [35]等对象检测器所知，一阶段检测更快更简单，但需要用于训练的对象级注释，这在WSD中传统上是不可行的。

所提出的GAL-fWSD框架如图1所示。它通过迭代学习代理F来挖掘前景类别的对象提议，以及学习一阶段检测器G来模拟F。上述过程由以下过程监督：除了对抗性损失之外，我们进一步引入结构相似性损失，以鼓励G不仅愚弄鉴别器D而且还复制了代理人F的输出，受到基于GAN的图像到图像翻译的启发[24,29] ，53]。同时，F模块还使用G生成的提议增加其提议，以提供高质量的地面实况边界框分布估计。在测试时，我们仅使用学习的检测器G进行推理。

这项工作的贡献有三个方面：我们提出了一个框架，采用生成对抗性学习来训练只有图像级别注释的快速检测器。据我们所知，这是首次尝试使用GAL而不是传统的MIL范式来制定WSD。我们建议在WSD中引入一级探测器，而不是传统的两级/多级探测器。我们实现了显着的运行时加速，同时保持相当或更好的检测精度为了克服训练中地面实况边界框的不可用性，我们进一步提出将结构相似性损失与对抗性损失相结合来训练生成器网络。

我们提供了有关PASCAL VOC 2007,2010和2012 [16]的详细评估，并与几种最先进的方法进行了比较[8,28,45,30,27,15]。实验结果表明，我们的方法处理300×300大小的图像，每秒惊人的118帧（即，比文献中最先进的WSD快438倍），同时仍然超过了检测精度以上方法。使用更大的512×512输入，我们的方法可以实现更高的精度，同时仍然可以执行实时检测。

2 Related Work

弱监督检测。在过去的十年中，弱监督对象检测已经被广泛研究，其通常使用两个/多个阶段的流水线，即，对象提议生成，特征提取和提议分类。辛比斯等人。 [10]提出了一种多重多实例学习方法，避免了对象定位中的性能退化。王等人。 [47]利用概率潜在语义分析（pLSA）来学习潜在的类别。通过评估每个潜在类别的辨别得分来选择包含目标对象类别的类别。 Bilen等人。 [7]提出将平滑判别学习过程与凸集群算法结合起来，该算法搜索一小组样本来描述训练数据。王等人。 [49]将高度组合的MIL优化问题放宽为凸计算，并使用随机梯度下降对其进行优化。 Bazzani等人。 [5]屏蔽了作为深度神经网络输入的图像区域，然后嵌入由掩蔽引起的识别分数的下降到凝聚聚类中，凝聚聚类用于合并用于对象定位的区域。

近年来，已经提出了许多WSD方法[8,28,45]来学习具有从图像中提取的对象提议的端到端模型。 Bilen等人。 [8]提出了一种双流端到端CNN架构。 Kantorov等。 [28]进一步提出添加基于对比度的上下文流以形成三流CNN架构。唐等人。 [45]将基本多实例检测和多阶段实例分类集成到单个网络中。在弱监督设置[30,27,15]中也很好地研究了两级全监督探测器。李等人。 [30]提出了一种渐进式域适应方法，包括分类适应和检测适应。杰等人。 [27]还在第一步学习了多标签分类，然后是在线支持性样本采集（增加了相对CNN得分改进度量），以检测学习快速RCNN的对象建议[17]。迪巴等人。 [15]利用三阶段级联模型，该模型结合了定位，多实例学习和弱监督对象分割以挖掘前景提议。

以上所有WSD方法都需要在在线推理中生成对象提议[46,55,3]。尽管有这样的两阶段设置，但是一些方法[52,54,20,50]提出了在不使用明确提议的情况下本地化对象。在这些方法中，计算每个类别的响应（或激活）映射，然后转换为二进制映射，基于该二进制映射提取边界框。但是，很难估计物体相互遮挡的范围。此外，这些方法仍然是多级检测器，因为它们需要额外的步骤来提取边界框。据我们所知，之前没有研究过将一级探测器用于WSD，因为像SSD [31]和YOLO [35]这样的单级探测都需要高质量的地面实况对象注释用于离线训练。

快速物体检测。为了加速在线推理，一个自然的选择是减少提议方式的子网并增加共享卷积子网。例如，R-CNN [18]没有共享卷积层，这使得它非常慢。相比之下，更快的R-CNN [36]共享大部分卷积层，这大部分是从R-CNN加速的。 R-FCN [12]进一步删除了所有提议方面的层，这使得它更快，但仍然需要一个耗时的提议特征池层。虽然SSD [31]有超过8,000个默认框，但它既没有建议层，也没有建议池层，这使得它在上述探测器中最快。从制度上讲，网络架构也会影响推理时间。例如，Kantorov等。 [28]使用Alex-Net [1]作为主干来减少网络处理时间。但是，如此小的网络可能会损害准确性。

生成性对抗网络。 GAN最初是由Goodfellow等人提出的。 [19]用于合成高质量图像。最近的努力[9,51,33,4,21]是为了提高GAN在训练中的稳定性。 GAN在图像生成[33]，表示学习[37]，风格转移[53]和图像超分辨率[29]方面取得了令人瞩目的成果。然而，将对象检测和生成对抗性学习结合在一起的作品非常有限。王等人。 [48]利用对抗性训练来挖掘具有不同遮挡和变形的硬正实例以训练探测器。与上述工作相反，我们采用生成对抗性学习来生成高质量的边界框，创新地近似于WSD边界框的估计分布。

3 The Proposed Method

3.1 Generative Adversarial Learning for Fast WSD

学习典型的快速一级物体检测器以适合物体实例的地面真实边界框。转向WSD时，对象边界框的注释不可用，我们所拥有的只是图像级注释。对于快速WSD，一种通常的解决方案是训练物体探测器以适合估计的边界框以近似地面真实的边界框。然而，传统的分类/回归损失[18,17,31,34]是在地面实况边界框上定义的，并且不能捕获估计的边界框的分布pb。

受最近使用GAN估计生成模型的工作的启发[19]，我们在边界框的分布上引入了对抗性损失（由位置，大小和类别描述），这使得只能从图像级注释中学习探测器。如图2所示，我们的关键创新在于快速弱受监督检测（GAL-fWSD）的新型生成对抗性学习范式。在训练阶段，GAL-fWSD在以下之间交替：（i）引入鉴别器D以区分生成的边界框与估计的边界框，以及（ii）更新生成器以生成更高质量的边界框以模仿分布PB。此外，如以下小节所述，结构相似性损失进一步与对抗性损失相结合，以指导发电机的学习。

GAL-fWSD中的另一个关键问题是基于图像级注释估计边界框。在这里，我们提出了一个代理人F来估计准确的建议。特别是，发生器G非常快，不需要对象提议，它是我们的最终检测器，可以执行快速在线检测，而代理F是基于缓慢但准确的提议开发的，两者都在遵循Generative Adversarial Learning框架。

3.2 Model Architecture

生成器G.给出图像x，G输出具有相关概率Gc（x）的对象边界框G1（x）并隐含地定义概率分布pg。我们利用[31]中引入的一阶段无提议检测器作为G.不使用更流行的两级检测器的原因是这些检测器通常具有明确的对象提议阶段，其产生独立于对象的确定的边界框。类别[46,55,3]，或需要复杂的网络结构[36]。前一种方法限制G具有足够的多样性来模拟边界框pb的分布。后一种方法将提议提取器与检测器紧密结合，这使得架构变得复杂。相反，一级探测器有可能更快更简单。

我们在下面简要介绍一下G. 在一级探测器中，网络顶部的多个特征图用于预测。不同的特征图具有不同的感受域，这允许检测图像中不同比例的对象。要素图上的每个单元格都隐式地与一组具有不同比例和宽高比的默认边界框相关联。检测器预测默认边界框的每类别分数，这表明在每个框中存在类别实例。然后，进行回归以使实例周围的边界框更紧密。高级特征图中的预测器负责检测大型对象，反之亦然，如图2所示。更多细节可以在[31]中找到。

鉴别器D.鉴别器D旨在提供高质量的指导以监督G.直观地，它是一个深度卷积网络，其输入是图像x和边界框{bi}。详细地，应用VGG16 [41]从其最后的卷积层获得特征图（x）。然后，原始完全连接的层适于将特征映射（x），归一化坐标和边界框{bi}的概率作为输入并输出一个条目，接着是sigmoid层以计算边界框{bi}的概率。是高品质的图像x。该网络被优化以使用随机梯度下降和反向传播来区分pb和pg。

代理器 F.我们使用对象感知空间信息来细化提议，这是[8]中提出的方法的变体，通过使用对象感知空间信息来纠正提议。如图3所示，F是三流深度网络。来自SPP层[22]的提议特征被分成两个流，即分类流和检测流。假设我们有C类和R对象提议{p1。。。 pR}，两个流分别通过两个完全连接的层产生两个得分矩阵xc，xd 2 RR×C。两个得分矩阵分别通过类别和提议上的softmax函数归一化：然后，两个流的输出的逐元素乘积再次是得分矩阵：xs =？（xc）·？（xd）。为了获得图像级分类分数，进一步应用总和池：yk = PR r = 1 xs rk。注意xs是根据每个提案的本地信息计算的。因此，来自相同图像的不同提议之间的关系被消除，并且学习过程可以收敛到不期望的局部最小值。为了处理这一点，通过将图像级分类得分yk反向传播到像素来获得类别k的响应mapMk。由于图像级别分类得分是各个提议得分的总和，它相当于将每个提案的得分反向传播到图像像素，这形成了显示对象形状的响应图。

3.3 The Model Objective

我们将对抗性目标函数LGAN与结构相似度函数LSTR结合起来：

与第二个损失期限相关的权重在哪里。
对抗性损失。生成性对抗性学习的目标函数表述为：

其中pdata（x，b）表示图像的双变量分布和相应的对象边界框。特别是，我们考虑一个鉴别器D（用于区分边界框来自哪个分布）和一个生成器G（用于提供边界框来欺骗鉴别器D）。对象边界框pdata（x，b）的分布由代理人F根据对象提议p的分布来估计。可以通过运行诸如[46,55,3]的现有算法来获得这种分布。我们在方程式中进一步得到b = F（x，p）。 2.值得注意的是，尽管边界框b和对象建议p可以具有相同的坐标，但是b与多个类别之间的概率分布相关联，而p仅与无类别对象提议相关联。为此，我们将目标函数LGAN分别分别优化D和G：

对于每个对象类别，代理人F的目的是将分布从pp转换为pb。如果pb很好地接近地面分布，则鉴别器能够提供高质量的监督以改善G.

上述公式鼓励检测器，即发生器G，以匹配物体边界框的分布。它不同于以前的工作，迫使探测器每个实例只适合一个判别边界框。相反，生成器G隐含地定义概率分布pg。然后，当生成模型完全复制边界框分布pb时，G和D将达到联合最优[19]，即pb = pg 1。

结构相似性损失。我们进一步引入结构相似性损失，迫使G不仅模拟整个数据的pb，而且模拟单个图像的边界框模式。我们首先将G生成的每个边界框与F的边界框匹配，并使用最佳的Jaccard重叠。对于第k类，Wk ij = {1,0}被定义为用于匹配从G到第j个的第i个边界框的指示符。如果来自F的边界框的最高置信度分数的类别是在背景中，来自G的匹配边界框被视为负样本，反之亦然。相应的相似度函数LSTR定义为：

其中Fc（x，p）和F1（x，p）分别是F（x，p）的概率和坐标，它们对于Gc（x，z），G1（x）和G（x）是相似的。方程的第一项 5测量G（x）和F（x，p）之间的边界框的概率相似度，其被指定为：

反馈机制。代理F在训练期间不固定，而是用D和G迭代更新。在每一步，我们首先更新D，然后G，类似于香草GAN [19]。要更新F，我们首先将原始对象性提议与G生成的边界框合并，然后使用扩充提议更新F. 因此，方程式中的所有函数F（x，p）。将9重新表示为F（x，{p，Gl（x）}）。虽然G生成的边界框是特定于类别的，但为简单起见，我们将它们视为对象提议。

在训练期间，G反馈高质量的边界框以改善F的性能，这反过来提供分布pb的高质量估计以通过LGAN和LSTR（隐式或明确地）改善G. 通过这样的反馈，G能够学习边界框的未知分布，这是由可变的一组对象提议由F估计的。如果G生成高质量的边界框，则Gl（x）可以支配F（x，{p，G（x）}）的分布，即Fc（x，G（x））的平均值高于 Fc（x，p）。从这个角度来看，G也愚弄了F，因为G提供了比原始提案更高质量的边界框。

4 Experiment

4.1 Experimental Setup

数据集。我们对PASCAL VOC 2007,2010和2012 [16]进行了实验，这些实验常用于物体检测。 PASCAL VOC 2007包括2,501个训练图像，2 510个验证图像，以及20个类别的4,092个测试图像。 PASCAL VOC 2010包括4,998个训练图像，5,105个验证图像，以及20个类别的9,637个测试图像。 PASCAL VOC 2012包括5,717个训练图像，5,823个验证图像，以及20个类别的10,991个测试图像。我们使用训练和验证分组作为我们的训练集，并将测试分成我们的测试集。由于我们专注于弱监督检测，因此在训练中仅使用图像级标签。

评估协议。首先，我们根据标准PASCAL VOC协议评估测试集上的平均精度（mAP）[16]。其次，因为PASCAL VOC实际上具有对象级注释，我们在训练集上计算Cor-Loc [14]。 CorLoc是评估对象本地化的度量标准。它计算方法正确本地化目标类别对象的图像百分比。在[16]之后，如果边界框与目标类别的任何地面实况边界框至少有0.5个交叉联合，则认为边界框是正确的。

实施细节。我们使用ImageNet [13]上预训练的VGG16 [41]作为所有模块的骨干，即D，G和F.对ImageNet分类数据[13]的预训练不需要边界框注释。我们设置参数=10鈭鈭为了获得G的良好初始化，我们首先用[3]的原始对象性提议训练F，学习率为10鈭鈭然后我们迭代地更新上述模型。在每个步骤中，我们使用随机梯度下降训练D进行1000次迭代，学习率为10鈭动量为0.9，重量衰减为0.005，小批量大小为128，而小批量大小为32用于训练G. 为了训练F，我们保持与D相同的设置进行40次迭代，这大约是VOC 2007训练集的一个时代。我们根据各自的论文[31,8]设定了G和F的其余超参数。为了权衡速度和准确性，我们使用两种不同的输入尺寸：G 300 300 and 300和512脳512.我们的实施是使用Caffe完成的[25]。

4.2 Comparison to State-of-the Arts

标签。图1显示了我们在PASCAL VOC 2007测试中的结果，称为mAP。低分辨率版本，即GALfWSD300，已经比theart-ofart方法更准确。请注意，300脳300是Tab中输入的最低分辨率。 1.当我们在更大的512×512输入大小上训练GAL-fWSD时，它分别进一步超过了状态[8]和[15] 12.7％和4.7％mAP。我们想指出Tab中的大多数方法。 1在训练和测试期间使用了多尺度设置，并且它们的最大尺度的输入分辨率远大于我们的。通过使用上下文信息[28]，大小估计[39]和多个网络的集合[44]，我们的表现可以得到进一步提高。 GAL-fWSD显示了具有可变形部件的类别的大幅改进，例如鸟，狗，猫和人。所有替代方法在人员类别中表现不佳，其mAP均为20.3％。我们的GAL-fWSD300比人类的[11]提高了81.3％。但是，我们的模式并不擅长检测马。通过使用检测分析工具[23]，我们发现大多数误报都是由于定位不佳造成的。

标签。图2显示了我们在PASCAL VOC 2007培训集中的结果，该培训集称为CorLoc。与[15]相比，我们的两个模型分别将性能提升了11.4％和9.4％。它表明我们的模型实现了最佳的本地化性能（GAL-fWSD300中20个类别中的6个），从另一个角度验证了我们的方案的有效性。

我们进一步对PASCAL VOC 2010和2012进行了实验。图4显示了PASCAL VOC 2010和2012两个指标的结果。与其他方法相比，我们的方法使用单一模型始终如一地实现了最先进的性能。我们进一步强调，即使使用低分辨率输入尺寸（300×300），我们的方法仍然明显优于使用多尺度输入进行训练和测试的所有方法。

4.3 Online Inference Efficiency

我们将方法与几种最先进的方法[8,30,28,45,27]在推理时间方面进行了比较。为了公平比较，我们使用Caffe [25]框架重新实现了[8,28,27]中的方法。因此，Tab中所有方法的时间成本。 5是可比的。我们在Tab中重现所有方法。 5在我们的服务器上并保持所有其他设置完全相同。我们使用GTX 1080Ti GPU和采用Intel i7-6900K@3.20GHz的cuDNN v6测量速度。

标签。图5示出了GAL-fWSD与其他现有技术方法之间的比较。我们的最快模型（GALfWSD300）定量执行速度为每秒118帧，与[30]和[8]相比分别为55倍和438倍加速。根据剖析，有三个主要原因使探测器效率低下：首先，推理中的多尺度设置显着降低了速度[8,28,45]。其次，提案提取每个图像使用至少250毫秒，如Tab中的第五列所示。第三，网络中的提议方式操作，例如， SPP层，也消耗了大量的时间。图4进一步表明，我们的两种方法在速度和精度方面都比较大，差距很大。

4.4 Ablation Study

我们在Pascal VOC 2007测试装置上使用GAL-fWSD300进行消融研究。如表格所示。如图3a所示，优化LGAN和LSTR共同将性能提高了5.1％，这表明结构相似性损失的有效性。通过反馈机制，性能得到进一步提高，这证实了我们的直觉，反馈建议可以用来帮助代理F，从而提高发电机G的性能。图3b还表明，反馈机制比简单地增加关于改进性能的区域提议的数量更有效。

4.5 Robustness to Noisy Annotation

我们通过分析SSD300 [31]在将合成噪声应用于地面注释时的性能来研究G的鲁棒性。模型经过PASCAL VOC 2007培训和验证分组培训，并在测试分组上进行测试。我们介绍了两种模拟噪声的机制。第一个通过从图像中随机采样区域来替换地面实况边界框。第二个随机移动地面实况边界框，但保持边界框的中心在图像边界内。如图5左侧所示，随着噪声注释比例的增加，G的性能急剧下降。它揭示了我们需要精确估计边界框分布以监督G的训练。

我们还随机丢弃一定比例的训练图像以研究G的鲁棒性，如图5右侧所示，其表示注释量的重要性，即地面真值边界框。图5中的红线表示GAL-fWSD300的性能。我们的检测精度接近完全监督的方法，其训练数据包含约46％50％的噪声注释。当SSD300仅有10％的训练图像时，SSD300的性能下降到GALfWSD300。换句话说，具有对象级注释的图像（完全受监督的检测器所需）可能值10张图像，在我们的方法中只有图像级注释。

5 Conclusion

在本文中，我们提出了一个有效的GALfWSD框架，用于实时弱监督对象检测，从生成性对抗性学习的新视角解决边界框级监督的需要。特别是，我们通过使用最先进的单级物体探测器将发电机设计得非常快。此外，引入了代理模块和反馈机制来估计对象边界框的分布。最后，进一步提出了一种新的结构相似性损失和对抗性损失来优化模型。大量实验表明，GALfWSD显着加速了最先进的弱监督探测器，同时实现了最先进的探测精度。