Region Proposal by Guided Anchoring论文翻译和理解

最新推荐文章于 2022-06-21 17:04:44 发布

奔跑的小仙女

最新推荐文章于 2022-06-21 17:04:44 发布

阅读量949

点赞数 1

分类专栏：论文笔记文章标签： Region Proposal by Guided Anchoring

本文链接：https://blog.csdn.net/qq_43211132/article/details/101346377

版权

论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

通过引导锚框进行区域建议

摘要

最先进的检测器大多依赖于密集的anchor组合方案，在该方案中，锚点以预定义的尺度和纵横比在空间域中均匀采样。
在本文中，将重新讨论这个基础阶段。
本文的研究展示了这个过程可以更加快速，也就是说我们提出了一个可选择anchor的方法——Guided Anchoring，利用语义特征来指导anchor的生成。
本文提出的方法对anchor位置和对应位置上的尺寸和纵横比进行联合估计，也就是可能存在感兴趣目标的中心（位置），和不同位置的b-box的尺寸和纵横比。
在预测Anchor形状的基础上，我们通过一个特征自适应模块（adaption module）来缓解特征不一致的问题。
还研究了使用高质量的建议来提高检测性能。anchor 机制可以连续地集成在proposal 方法和检测器中。
通过Guided Anchoring，我们在 MS COCO 上的 recall提升了9.1%，同时使用比RPN少90%的anchors。
本文同样在Fast R-CNN, Faster R-CNN 和 RetinaNet 上集成了 Guided Anchoring，mAP分别提升了2.2%，2.7%和1.2%

1、介绍

Anchors是预测proposal(对于两阶段检测器)或最终边界框b-box(对于单阶段检测器)的回归引用和分类候选项。
流行的目标检测过程在开始阶段一般会有大量的分散的anchors。
以Faster R-CNN为例，它首先从大量anchor中产生候选框，之后对候选框进行分类，最后通过回归来微调边界框。

对于合理的anchor设计有两个通用的规则：alignment+consistency （对齐一致）
首先，将卷积特征作为anchor表达，anchor的中心需要和特征图的像素对准。
其次，特征图不同区域的感受野和语义视野要有连续性，所以也就是要求不同位置的anchor的尺度和形状是一致的。
滑窗很简单且很符合上述规则，对于大多数检测规则，anchor是使用上述方法来设定的，其中特征图中的每个位置都有 k 个不同大小和不同纵横比的anchors。
anchor-based检测方法在基准和实际应用中展示了其有效性，然而上述一般的方法都没有一个最优的确定anchor的方法，这会导致两个困难：
（1）要针对特定的问题来设置一系列固定纵横比的anchors，一旦设计不合理会导致检测速度和准确度都下降
（2）为了保持对候选区域的高recall，需要大量的anchors，但其中一大部分anchors是错的，与感兴趣目标是无关的。且大量的anchors会导致大量的计算开销，尤其在候选区域提议阶段。

本文提出了一种高效的方法来指导anchor的生成，同时可以有效地降低前期大量的手选工作。
本文灵感源于——图像中的目标物体并不是均匀分布的，而目标的尺度通常和目标物体的内容、位置和场景结构相关。
根据上述理论，本文的方法从两方面来产生稀疏anchor：

首先识别可能包含目标的子区域
之后确定不同位置的尺度和纵横比
可学习Anchor的形状是一种很有意义的，但它打破了上述规则的一致性（consistency），从而对学习Anchor表示形式进行准确的分类和回归提出了新的挑战。
Anchor的尺度和长宽比现在是可变的，而不是固定的，因此不同的feature map像素必须学习适合相应锚点的自适应表示。

为了解决该问题，本文引入了有效的模型来适应基于anchor结构的模型——特征适应模型。
Guided Anchoring Region Proposal Network ——GA-RPN
由于动态预测anchors，本文大方法使用比RPN的anchor少90%，且recall高9.1%。通过预测尺度和纵横比，而非使用固定的，本方法让又高又宽的检测器更加高效。
除了region proposals，guided anchoring 机制可以更简单的集成到任何基于anchor的检测器中，并且都获得了一定的性能增益。如GA-Fast-RCNN, GA-Faster-RCNN 和GA-RetinaNet，在COCO数据集上都比使用滑窗anchor的基准方法的 mAP 分别提高了 2.2%, 2.7% 和 1.2%。
另外，我们也探索了使用高质量region proposals，并提出了一个使用 GARPN 提议的微调方法，该方法在很多训练模型上都有了性能提升，如在仅仅3次迭代情况下，对全收敛的Faster R-CNN模型的mAP从37,4%提高到了39.6%。

本文的主要贡献如下：
（1）提出了一个新的anchoring机制，该机制具有预测非一致、任何形状anchor的能力
（2）使用两个条件分布表达了联合anchor分布，并分别对两者进行了建模
（3）使用对应的anchor研究了aligning特征的重要性，设计了一个基于anchor形状的特征自适应模块来精细化特征
（4）研究了在两阶段检测器中使用高质量proposal，并且提出了一种提升训练模型性能的方法

2、相关工作

传统目标检测器：
目标检测中的滑动窗口机制。使用滑窗来进行检测的方法中，给大量的图像网格中都使用分类器进行分类，在过去的计算机视觉中起到了决定性的作用。过去很多相关的工作都是基于此，如HOG/SIFT和Integral Channel Features。
两阶段目标检测器：
两阶段目标检测方法在目前的目标检测问题中起到了主导性的作用。
第一阶段产生一系列的候选框，第二阶段对这些框进行分类并精细化坐标。
之前的研究中，目标候选框产生于额外的模型，Faster R-CNN中引入了RPN模块，作为目标提议模块，它是以小的全卷积网络来将每个滑窗anchor映射到一个低维特征，该模块在后面的两阶段模型中应用很多。
单阶段目标检测器：
相比于两阶段目标检测器，单阶段目标检测的过程将产生候选区域、预测b-box和分类打分集成在一个阶段来完成。
尽管省去了区域提议阶段，但单阶段方法仍然使用滑窗生成的anchor box。
例如，SSD和DenseBox，从特征图中产生anchor，将这些anchor当做多类别的RPN。
RetinaNet和SSD有很多相似之处，添加了focal loss和FPN模块来解决前景和背景类别不均衡的问题和小目标检测的问题。
YOLOv2使用滑窗anchors来分类和空间定位预测，比之前的方法得到了更高的recall。
级联分类和回归：
已经有方法尝试在前期层或阶段使用级联架构来丢弃容易确定的样本，并迭代地回归b-box来逐步精细化。
比较和不同：

我们总结了本文的方法和传统方法的不同：
（1）首先，之前的方法（单阶段、两阶段和多阶段）仍然依赖于由滑窗所得的大量且一致的anchor。而本文方法丢弃了滑窗机制，提出了一个更好的方法来指导anchor的生成，并且生成的anchor更加稀疏，之前没有被提出过。

（2）级联检测器使用多于一级的检测器来逐渐精细化检测b-box，这通常会导致更多的模型参数，且会降低推断阶段的速度。这些方法为使用RoI pooling或RoI Align 模块来为b-box提取aligned特征。这对生成候选区域或单阶段检测器来说，开销非常昂贵。

（3）Anchor-free 方法[16,17,28]通常是使用简单的流水线，且使用单级来产生最终的检测结果。由于anchors的缺少和anchor-based的精细化，它们缺少对复杂场景的处理能力。本文聚焦于稀疏且非一致性的anchor生成方法，且使用高质量的候选区域来提升检测效果。为了实现该目标，我们必须解决misalignment和inconsistent问题，这两个问题对anchor-based方法具有特殊的好处。此外，[17]中假定分割mask为有监督任务，其尺寸的预测被用来对多尺度网络的输出进行加权求和。

（4）一些单目检测器[36,34]通过多级回归和分类来精细化anchors。本文方法不同，我们没有逐渐的精细化anchors，而是预测anchor的分布，该分布和位置及形状有关。传统的方法没有考虑到anchors和features之间的对准性，所以其需要使用多级乘法对anchors进行回归，这样会打破对准性和一致性。相反，我们非常看重这两个规则，所以我们仅仅预测anchor的形状，固定anchor的中心，并使用基于预测形状的特征。它们分类目标是判定一个anchor和其真实目标的IoU是否大于阈值，而我们定位分支会预测一个点是否和目标中心点较近，而不是任何特定的anchors的标签。

3、Guided Anchoring

anchors 是目前目标检测方法的基础，主流的框架包括两级和单级检测方法，其大多数都依赖于具有一致性的anchors。
特别地，一系列的anchors将被部署到大小为W×H的特征图上，步长为s。
该方法是低效的，因为很多anchors被部署到非感兴趣目标区域或背景区域。另外，该手动选择anchor的先验方法为不同的目标设定了形状固定的anchors，不切实际。
本文中，考虑到图像中的目标物体的位置和形状是非均匀分布的，我们提出了一种有效生成anchor的方式，使得anchor自己学习形状。
Guided Anchoring方法工作过程如下：

一个目标的位置和形状可以用四维向量 (x,y,w,h)来表示，其中(x,y)是空间坐标中心点，w是宽度，h是高度。假设我们从图像 I中抽取了一个目标，则其位置和形状符合如下分布：
在这里插入图片描述

该因式分解有两个重要的信息：
（1）给定一幅图像，目标肯定存在于特定的区域。
（2）一个目标的形状（尺寸和纵横比）和其位置有很大的相关性。

基于上述公式，我们在图1的红色虚线框中展示了anchor生成模块。
该模块由“位置预测”和“形状预测”两个分支构成，给定一个图像 I，首先获得一个特征图 F _I ，在 F _I 的顶端，位置预测分支产生一个概率映射，表明可能有目标的位置，形状预测分支预测与位置相关的形状。
得到这两个分支的输出之后，选择预测概率高于特定阈值的位置，并且在特定位置上确定可能的形状，以此来产生一系列的anchors。
anchor的形状是可变的，不同位置的特征能够捕捉不同范围的视觉内容。本文引入特征自适应模型，可以根据anchor的形状来适应特征。
上述anchor生成过程基于单个的特征图，目前有很多研究证明使用不同层级的多级特征图有助于获得更好的anchor。
所以，本文也研究了多级anchor产生机制，从多级特征图中产生anchors，之后级联FPN框架。
从本文框架的设计中可知，产生anchor的参数可以在多个层级之间共享，故本框架是计算高效的。

在这里插入图片描述
图解：我们的框架的说明。对于特征金字塔中的每个输出特征图，我们分别使用一个带有两个分支的Anchor生成模块来预测锚的位置和形状。然后将特征自适应模块应用于原始特征映射，使新特征映射能够识别Anchor形状。

3.1 Anchor 位置预测

如图1所示，anchor位置预测分支产生了概率映射p(⋅|F _I)，该映射和输入特征图 F _I大小相同，p(i,j∣F _I)对应于图像 I中的坐标 ((i+1/2)s,(j+1/2)s)，其中 s是特征图的步长，也就是相邻anchor的距离。该值表明在该位置可能存在目标物体中心的概率。
上述公式中，概率映射p(i,j∣F _I)是使用子网络 N _L来预测的，该网络给F _I 使用一个1×1的卷积来获得objectness scores的映射，之后利用sigmoid函数将其转化为概率值。
一个深层的子网络可以获得更准确的预测，通过实验发现给卷积层后接一个sigmoid函数会对效率和准确率之间的平衡不利。
基于该概率映射，我们之后可以通过选择这些概率值大于阈值 ϵ_L 的位置，来确定可能存在目标的激活区域。
该过程可以滤掉90%的 anchors，同时保持同样的recall。
如图4所示，类似于天空和海洋等区域是不包含在内的，anchor基本上集中于人物和冲浪板附近，因为没有必要在不包含目标的区域多做考虑，我们使用masked convolution 来代替后续的卷积过程，来提高推断阶段效率。
在这里插入图片描述

3.2 Anchor形状预测

确定了可能存在目标的位置之后，下一步是确定每个位置的目标形状。
形状预测由anchor形状预测分支完成（图1）。该分支不同于传统b-box回归，它不改变anchor的位置，且不会导致anchor和anchor feature之间发生misalignment。
具体来讲，给定一个特征图 F _I，该分支对每个位置都会预测最好的形状 (w,h)，这些形状与最近的真实b-box会获得最高的IoU。尽管我们的目标是预测w和h的值，根据经验会发现直接预测这两个值是不稳定的，因为其可能的范围很大，所以，我们使用下面的变换：
在这里插入图片描述
形状预测分支会输出 dw和 dh，这两个值可以映射出 (w,h)，其中 s是步长，δ是经验尺度因子（本文实验中取8）。
该非线性变换映射可以将 [0,1000] 映射到 [-1,1]，使得学习目标更简单更稳定。
本文使用子网络 N_S来预测形状，该网络包含一个 1×1大小的卷积层，可以产生两通道映射，包含 dw和 dh 的值，像素级的转换见公式（2）。
该设计不同于传统的anchor生成方法，每个位置都只与一个逐步预测形状的anchor相关联，而不是一系列预定义形状的anchor。
本文实验说明，由于位置和形状有较大的相关性，本文机制可以比其他基准方法实现更高的recall。同时，本文的机制允许出现任意的纵横比，为检测很高或很宽的物体带来了可能，如火车或滑板。

3.3 Anchor-Guided 特征自适应

传统的RPN中或使用滑窗的单阶段检测中，anchors在整个特征图中都是一致的，即每个位置上的都是统一形状和尺度的，因此特征图可以学习连续的表达方式。
本文方法中，anchor的形状是根据位置的不同而变化的。在此条件下，我们发现使用跟之前相同的方法可能不是最好的选择，之前的方法是在全部的特征图上都使用一致的全卷积分类器。
理想情况下，较大anchor的特征可以编码较大区域内容，较小的anchor特征能够抽取较小区域的内容。
基于此，我们将深入介绍 anchor-guided feature adaption 模块，该模块会利用特定位置上的anchor shape将特征转化：
在这里插入图片描述
其中，f^′_i是第 i个位置的特征， (w_i,h_i)是对应的anchor形状。
对于该依赖于位置的变换方式，我们使用 3×3的可变形卷积层来实现 N_T变换。
如图1所示，首先从anchor shape预测分支的输出来预测偏移，之后在原始特征图上使用可变形的卷积核偏移来获得 f^′_i。
自适应特征的顶端，我们可以使用更多的分类和b-box回归。

3.4 训练过程

联合目标 Joint objective：
本文提出的框架在使用多任务损失的端到端框架中是最优的.
除过分类和回归损失，本文还引入了anchor位置损失和anchor形状损失，联合最优损失如下：
在这里插入图片描述
Anchor 定位目标：
为了训练anchor定位分支，对每幅图像都需要一个二值标签map，将有效的anchor位置编码为1，其余编码为0。此处，我们使用真实b-box来指导二值map的生成。
另外，我们希望给目标邻域附近放置更多的anchor，离目标邻域远的地方放置很少的anchor。
首先，将真实b-box（x_g,y_g,w_g,h_g）映射到特征图尺度上，获得（x’_g,y’_g,w’_g,h’_g）.
R(x,y,w,h)是中心（x,y），尺寸为w×h的方形区域。
希望更多的anchor出现在真实目标的中心附近，来获得较大的 IoU，故我们对每个box都定义三个类型：
(1）中心区域 CR=R(x′_g,y′_g,δ₁w′,δ₁h′)定义了box的中心区域， CR中的像素被分配为正例。
(2）忽略区域 IR=R(x′_g,y′_g,δ₂w′,δ₂h′)//CR 是一个较大的区域，不包含 CR。IR 中的像素被标记为忽略像素，不参与训练
(3）外部区域 OR，该区域是整个特征图中除过 CR和 IR的地方，其中的像素被作为负例。
之前的工作中，为了平衡样本而提出了“灰色区域”的概念，它具有和本文的定位目标相同的定义，但仅仅在单个特征图中起作用。
由于我们使用多级特征图，我们同样要考虑临近特征图的影响，尤其是每个层级的特征图应该仅仅具有特定尺度范围的目标物体。

IR——临近层级的相同区域，如图2所示
CR——一般是占整幅特征图中的一小部分，所以使用Focal Loss来训练定位分支。

确定每个anchor的最好的形状需要两个步骤：

（1）将anchor和真实b-box进行匹配
（2）通过最大化anchor和与其匹配的真实b-box的IoU，来计算最优形状
之前的工作[30]，给真实b-box分配一个候选anchor，来产生最大的IoU。
这种方式不适合于本文的方式，因为本文的 w和 h不是预定义的，而是可变的。
为了解决该问题，我们将可变anchor ,a_wh=（x₀,y₀,w,h）和真实b-box gt=（x_g,y_g,w_g,h_g）之间的IoU定义为vIOU,公式如下：
在这里插入图片描述
其中，IOU_normal是特殊的IOU，其中w和h都是变量。
对任意的anchor位置（x₀，y₀）和真实的gt，vIOU（a_wh，gt）都是较难解释的，并且难以在端到端的网络中得以实现，因此，我们使用近似的方法来代替。
给定一个（x₀，y₀），，对 w 和 h 进行了一些通用值取样，来模拟所有的 w 和 h 。之后，计算这些采样的anchor和真实值的IoU，使用最大值来作为vIOU（a_wh，gt）的近似。
实验中，我们采样了9对不同尺度和纵横比的 (w,h)作为准确率和效率的权衡，最终使用位置 (x₀,y₀）来匹配真实值，产生最大的vIOU。
我们使用大量不同但有界的 iou loss[32]来最大化 anchor和与之对应的真值的IoU，而不是直接回归最优的anchor形状。
该损失的定义和之前的方法很类似，但我们仅仅优化了w和h，而非所有x，y，w，h，因为anchor的位置是固定的。

3.5 高质量提议区域的使用

RPN通过添加了guided anchoring 机制，获得了比传统RPN更高的质量的区域提议。
下来我们将介绍，如何使用这些高质量的提议区域来提升传统二阶段检测器的性能。
图3中分别展示了使用 RPN 和 GA-RPN 所获得的IoU分布情况，GA-RPN 有两个明显的优势：
（1）正区域提议很多
（2）high-IoU的比例较多
在这里插入图片描述
一个很直接的想法是直接在已有的模型中用 GA-RPN 来代替 RPN 并训练端到端的模型，然而，这样做只能获得非常有限的提升（小于1%）。
从我们的观察中可知，使用高质量区域提议的前提是是训练集样本和区域提议的分布较为一致。
因此：
设定一个较高的正例/负例阈值
在训练GA-RPN 的过程中使用比RPN 更少的proposal。
除了端到端的训练，我们发现 GA-RPN 的提议区域能够使用微调方式提升两级检测器的效果。
也就是，给定一个训练好的模型，去掉提议生成模块（如RPN），并使用预定义的 GA-RPN 提议区域来进行有限次数的微调（默认为3次）。
GA-RPN 提议同样在推断阶段也应用了，该简单的微调机制可以使用有限的微调，给性能带来较大的提升。

4.实验

4.1实验设置

数据集：
我们在 MS COCO 2017 基准上进行实验[22]，我们将训练集划分为训练和验证集，检测结果是测试集 test-dev 上的效果。
实验细节：
我们使用 RestNet-50和 FPN 作为主干网络。
将图像大小设置为1333*800，不改变纵横比，定义CR和IR时设定δ₁=0.2 ，δ₂=0.5
多任务损失函数中，使用λ₁=1，λ₂=0.1来平衡定位和形状的预测分支。
使用SGD在8个GPU上进行实验，每个minbatch大小为16（每个GPU上处理2幅图像）。
迭代次数为12，初始学习率为0.02，分别在第8和第11次迭代的时候将学习率降低0.1。在 TITAN X GPU 上进行训练。
实验效果度量
RPN 的实验结果利用AR（Average Recall）度量，该量是不同IoU阈值（0.5~0.95）下的平均recall。
每幅图中的提议区域从100,300到1000个的测试结果为AR₁₀₀,AR₃₀₀和AR₁₀₀₀
小目标、中等目标和大目标的模型AR_S，AR_M和AR_L的结果都是从提议区域个数为100而得到的。
检测结果再标准 COCO 上进行了度量，取了IoU的跨度为 0.5~0.95 的均值mAP。

4.2 结果

首先，通道对比 GA-RPN 和基准 RPN 及之前基于区域提取的 SOTA 方法的结果来度量anchoring 机制的效果。
同时，我们对比一些变体：

RPN+9 anchors：定义为，在每个特征层级上使用三个尺度和三个不同的纵横比，基准方法使用1个尺度和3个纵横比进行实验[20]。
RPN+Iterative：定义为，连续使用两个RPN heads，在两者中间添加额外的 3×3大小的卷积层。
RefineRPN：定义为，和[36]结构相似的结构，在FPN前后都各自进行了一次分类和回归。
如表1所示，本文方法比基准RPN方法效果有很大的提升，在 AR₃₀₀上提升了10.5%，在 AR₁₀₀₀上提升了9.1%。

值得注意的是， GA-RPN 使用较小的主干网络就可以获得比使用较大主干网络的 RPN 更好的效果。
该结果也由图4所示的效果所支撑，图4展示了稀疏和任意形状的anchor和两个分支的可视化输出。
显而易见，anchor聚焦于目标物体，且为后续的目标提议打下了良好的基础。
图5中，展示了使用滑窗法生成anchor和使用guided方法生成anchor的例子。

迭代回归和分类（“RPN+Iterative” 和 “RefineRPN”）仅仅能带来很小的提升，但其正面了上述规则中提到的 alignment 和 consistency 规则的重要性，并且简单的多次细化anchor是不够高效的。
保持anchor中心固定且基于anchor 形状来自适应获得特征是很重要的
为了探索 guided anchoring 的泛化能力和提升检测效果的能力，此处将 guided anchoring 分别和单阶段和多阶段的检测器进行整合，包括Fast R-CNN [12], Faster R-CNN [30] 和 RetinaNet [21] 。
对于两级检测器，使用 GA-RPN 来代替 RPN，对于单阶段检测器，使用 guided anchoring 来代替滑窗 anchor 生成过程。
表2中可知，guided anchoring 不仅仅提升了 RPN 的recall，也大幅度提升了检测性能，使用 guided anchoring 后，这些检测器的mAP分别提升了2.3%, 2.7% 和 1.2% 。

为了进一步研究高质量提议区域的影响和微调机制的效果，使用全收敛的 Faster R-CNN 模型并利用 RPN 或 GA-RPN 提议的区域来进行微调，微调迭代次数为3，学习率分别为 0.02，0.002 和 0.0002。结果见表3，可知 RPN 提议没有带来任何的提升，但高质量的 GA-RPN 可以将 mAP 提升 2.2%，仅仅使用3次迭代。

4.3 消融实验

本文通过分别略去不同的模型部件来验证不同模型的作用，包括定位预测分支、形状预测分支和特征自适应，结果见表4。

形状预测分支可以带来4.2%的提升
定位预测分支虽然仅仅带来了较小的效果提升，但其对推理阶段效率的提升很有效果
从特征自适应模型中得到的效果提升表明了根据预测的anchor形状而对特征图重新安排，是很有必要的。该模型有助于有效的捕捉与anchor相对应的目标信息，尤其是大目标的信息。

在这里插入图片描述
Anchor 定位：

定位阈值 ϵ_L决定了anchor分布的稀疏程度，使用不同的阈值可以得到不同数量的anchor。
为了探究 ϵ_L对效率和性能的影响，我们将阈值改变，并且比较下面不同设置时获得的结果：每幅图中的anchor数量均值、recall 或者最终提议和推理阶段所需时间。
表5中，可以看出大多数背景区域的的目标得分为0，所以，较小的 ϵ_L 可以抑制约 90% 的anchors，且recall仅仅有很小的下降。
在这里插入图片描述
注意， RPN head 仅仅是一个卷积层，所以没有明显的效率提升。尽管如此，anchor的大量减少为多head 的推断阶段效率提升带来了可能。
Anchor 形状：
此处，对比了一系列本文方法产生的anchor和滑窗法产生的anchor。
由于本文方法在每个位置仅有一个anchor，而不是 kkk 个，所以anchor的总数是基准方法的 1/k1/k1/k 。
图6展示了本文方法的anchor和滑窗法的anchor的尺度和纵横比的分布。结果表明，使用guided anchoring 方法得到的anchor更好。
预测得到的anchor的尺度好纵横比范围都较大，和真实目标的分布类似，对真实目标的覆盖更好。
在这里插入图片描述
特征自适应模型：

特征自适应模型很大程度上提高了区域提议的recall，证明了特征一致性很重要。
该提升不仅仅来自于可变形的卷积过程，同时也来自于是用anchor shape prediction 来预测可变形的卷积偏移。
如果简单地给anchor生成后面添加一个可变形的卷积层，在AR100/AR300/AR1000 上的结果分别为 56.1、62.4 和 66.1，低于本文所获得的结果。

高质量 proposal 的使用：

将高质量的 proposal 直接使用到相同的检测器上只能带来小于1个百分点的提升，如图3所示，GA-RPN 可以在高 IoU 条件下保留更多的候选区域，所以，我们建议使用更少的 proposals 来训练检测器。
为了验证该结论，在 Fast R-CNN 中分别使用 RPN 和 GA-RPN 来进行实验，使用不同数量的 proposals 来训练网络，并且对前景和背景分别使用不同的 IoU 阈值。
从图6可知：
（1）较大的 IoU 阈值对获得高质量的 Proposal 很重要，聚焦于高 IoU 的正例将会获得更小的假阳性，同时用于分类的特征更具有区分力。
（2）在高 recall 的情况下，在训练和测试过程中使用更少的 proposals 有利于学习。少的 proposals 会导致较低的 recall，但是可以简化学习过程，因为低得分的proposals 是难以区分的。用 RPN 进行训练时，使用 300 个proposals会导致效果下降，因为recall 过低，很多目标会丢失。然而使用 GA-RPN时，在 proposals 数量较低时仍然可以保证较高的 recall。故使用 300 个proposals 时仍然可以增加性能。
在这里插入图片描述

5. 结论

本文提出了Guided Anchoring 机制，利用语义特征来指导anchor的生成。
在估计anchor位置的基础上同时来估计anchor的形状，产生一些了不一致的anchors。
本文提出的方法比使用滑窗来产生anchor的 RPN 基准方法的recall高9.1%，且anchor个数少90%。
guided anchoring 机制可以集成到任何 anchor-based 检测器中，性能提升约2.7%