ReinforceNet: A reinforcement learning embedded object detectionframework with region selection net

最新推荐文章于 2024-03-12 16:28:22 发布

fayetdd

最新推荐文章于 2024-03-12 16:28:22 发布

阅读量2.3k

点赞数 2

文章标签：目标检测计算机视觉深度学习

强化学习嵌入式目标检测框架与区域选择网络

摘要

摘要近年来，研究人员探索了基于强化学习的目标检测方法。然而，现有的方法总是难以令人满意的性能。主要原因是现有的基于强化学习的方法产生了一系列不准确的区域，没有合理的奖励函数，并且由于缺乏有效的区域选择和优化策略，将最后一步的非最优区域作为检测结果。针对上述问题，我们提出了一种新的基于强化学习的目标检测框架，即reinforcement learning，将强化学习agent的动作空间与基于卷积神经网络的特征空间相结合，具有区域选择和细化的能力。在reinforcement network中，我们重新开发了一个奖励函数，使agent能够得到有效的训练，并提供更准确的候选框。为了进一步优化它们，我们设计了基于卷积神经网络的区域选择网络(RS-net)和边界框细化网络(BBR-net)。其中，前者包括两个子网络:交联网(loU-net)和完备性网(cpl -net)，它们共同用于选择最优候选框。后者的目的是细化选定的结果作为最终结果。在PASCAL VOC 2007和VOC 2012两个标准数据集上的大量实验结果表明，reinforcement learning能够改进区域选择和学习更好的agent动作表示来进行强化学习，从而获得最先进的性能。

1. 引言

近年来出现了一些基于强化学习(RL)的目标检测方法|1,2,5-8,12]。这些基于RL的方法通常将目标检测定义为马尔可夫决策过程(MDP)，其中RL agent 使用动作决策策略在多个步骤中依次选择动作来调整输入图像的纵横比，直到触发终端动作。RL以上方法的一个明显的优势是,只有少数region proposal候选框(通常不超过10候选人)检测所需的对象,而基于卷积神经网络(CNN)的方法(3、4、9 - 11、13)总需求成千上万的预先计算的建议,这使得他们很难处理的最优区域的选择。然而，现有的基于RL的对象检测方法往往性能不佳。主要原因是RL agent (i)直接生成一系列不准确的区域，没有合理的奖励函数，(ii)将最后一步的非最优区域视为检测结果缺乏有效的区域选择策略。(3) RL过程中边界框回归只采用动作空间。针对上述问题，本文提出了一种基于区域选择和细化网络的强化学习嵌入式目标检测框架，将RL agent的动作空间与基于cnn的特征空间相结合的更精确的目标检测模型。整个网络由三个主要部分组成:(1)RL优化:一种用于RL agent优化的新型奖励函数;(2)RS-net:一种用于搜索最优候选框的区域选择网络;(3)BBR-net:一种用于进一步回归的边界框优化网络。

(1) RL优化:合理的奖励函数是RL优化的关键。然而，在以往的研究中[5,6,8]，基于IoU的奖励函数只关注相邻区域IoU差的正/负变化，而忽略了变化幅度，使得RL agent对小的变化并不敏感。为了解决这一问题，我们同时将相邻区域间变化幅度的IoU和完整性考虑为奖励函数，以有效地训练RL agent.其中，完整性是一种新定义的度量图像中目标对象完整性的评价指标。一般来说，可以合理地假设RL agent可以随着运行epoch的上升而逐渐增强学习能力。因此，我们引入多agent而不是单一agent来覆盖并找到检测结果的最优候选框。

(2)区域选择网络(RS-net):在MDP中，RL agent[17]利用当前观测的区域图像和历史搜索路径，依次搜索目标。当RL agent停止搜索时，将最后一步的候选框作为检测结果。然而，从图1中可以看出，从不同RL检测方法的观察结果来看，大多数最后一步候选框都不是最优的。为了解决这一问题，我们设计了一种新的网络，即RS-net来选择最优候选框。RS-net由两个子网络组成:loU-net和cpl -net，分别负责计算每个候选框的loU和完整性值。将预测的loU值和完整性值联合评估候选框，选择最优方案，如图1-(b)和图4所示。

图1所示。将我们的工作与其他RL架构进行比较。图1-(a)显示了不同方法的loU值对飞机的定量检测结果:: Hierarchical-RL181. Caicedo-RL I9l和Tree-RL 171。这些RL方法会产生一系列不准确的区域，并将最后一步的非最优区域作为检测结果。图1-(b)说明了我们的强化网络的检测过程。首先，训练良好的RL agent依次采取适当的动作对输入图像进行变换，提供准确的候选框。在t=1.2.3和4时刻。它将前一个窗口(输入图像、虚线紫色、蓝色和黄色框)分别转换为新的状态(紫色、蓝色、黄色和绿色框)。然后，设计的RS-net负责从所有区域中有效地选择出最优区域(vellow box)。最后我们提出的BBR-net进一步细化了最优的检测结果，可以清楚地看到，我们的reinforcenet比最先进的方法有更好的性能

(3)边界框细化网络(BBR-net):与基于CNN的方法[9,131]相比，标准的基于RL的目标检测方法使用动作空间而不是特征空间进行边界框回归。例如，Bueno et al.[8]使用5个预定义的动作来细化候选边界框。然而，由于预定义动作空间不能覆盖目标大小空间，区域细化的结果受到预定义动作空间参数的严重限制。受边界框驱动，在两阶段目标检测中采用微调策略架构[9,13]，我们设计了一个边界框的细化网络(BBR-net)集成了动作空间和特征空间进一步回归。具体地说,利用CNN骨干网提取局部特征图从RS-net中选择的建议，同时将其应用到RL框架中进行bbr -net训练。这
策略提供了一种更互补的机制来抑制不准确的目标定位问题。

本文的主要贡献如下:(1)提出了一种新的基于强化学习的目标检测网络，即强化网络。强化网络将RL agent的动作空间与基于cnn的特征空间相结合，具有区域选择和细化的能力。(2)我们重新开发了loU和完整性共同引导的奖励函数，使得RL agent对相邻区域间的微小变化非常敏感。此外，我们用多agent代替了单agent，丰富了目标检测框架的表达性。(3)在PASCAL VOC 2007和VOC 2012对象检测基准上的大量实验表明，与最先进的方法相比，我们的reinforcenet具有更好的性能。

2. 相关工作

目前物体检测的主要方法是基于CNN的深度探测器，可以归纳为两级[9,23,241]和单级探测器110,111。对于两级检测器，在[13|]中报道了先驱工作R-CNN，它结合外部区域建议模块和一个区域分类器来制定目标检测。尽管这种方法看起来对目标检测具有很好的鲁棒性，但它通过选择性搜索算法获得区域建议的大量计算成本14]确保了该检测器在实际中不适用。开发的sp - net[25]和Fast R-CNN[261]从CNN骨干生成的共享全图像特征图中提取区域提议的特征。由于Fast R-CNN增强了冗余计算的瓶颈，检测器仍然没有端到端训练。后来，为了解决这个问题，Faster RCNN[9]引入了一个全卷积网络，区域提议网络(Region Proposal network, RPN)，它利用注意力机制告诉Fast RCNN去哪里看。此外。RPN生成高质量的稀疏Rols，并进一步提高性能。我们注意到还有第二种探测器，例如YOLO、RetinaNet和SSD[10,11,231]。与前两阶段探测器不同，第二阶段探测器并不基于候选框。虽然两级探测器在运行时的性能远远落后于两级探测器，但两级探测器可以适应各种精度要求。

基于强化学习的探测器

值得注意的是，基于RL的对象检测方法与我们的强化网络更相关。Caicedo等人，16l设计了一个主动目标检测模型，该模型利用Deep Q-learning Network 1151学习动作决策策略，搜索目标直至触发终端动作，并得到与RCNN的对比结果。随后，Bueno et al. 181提出了一种具有5个动作的自顶向下层次搜索策略，训练有素的agent只关注具有足够目标信息的区域，然后缩小局部区域以进行进一步搜索。然而，上述方法只检测固定数量的对象。为了克服这一问题，Yang Li等[12,18]利用restricted Edge Boxes[19|]通过先验知识得到更合适的高质量候选框，从而达到较高的准确率和召回率。此外，上述方法采用loR (inhibition-of-return)机制来处理多目标检测问题。此外，Ba等22引入了一种深度循环注意模型(deep recurrent attention model, RAM)来识别使用RL训练的多个对象。然后，所开发的线索RAM[251]提出了添加线索或约束来引导RL agent快速搜索包含对象的缩放，从而加快了检测速度，取得了更好的性能。最近，Chen等人[21|]利用LSTM网络的主要功能是依次捕获上下文依赖关系，定位与不同语义对象相关的注意区域，得到现成的结果。近年来，在高效的对象检测中，已经出现了一些基于强化学习的工作，如32,33,37]，弱监督对象检测[34]和对象分割[35,36]。[321]提出了低、高空间分辨率双路奖励，有效地训练RL agent，使其自适应地选择每幅图像的空间分辨率。与以往的工作相比，该检测器应用于大图像的每个部分，大大提高了运行时效率。Wu等人[33]没有采用手工制作的帧采样策略，而是有效地利用多智能体将帧采样重构为多个并行马尔可夫决策过程。1341年的工作重点是弱监督目标检测，利用图像级标注生成伪目标区域，并将伪目标区域作为初始位置进行进一步检测。[351]首先在视频对象分割中引入强化学习，采用RL agent提供对象和上下文框，然后将对象和上下文框馈入follow - fully卷积网络进行分割。[36]结合用户反馈和游戏化策略，提出了一种多智能体对象分割方法，获得了良好的性能。[37]使用YOLO-V3快速提供区域方案，然后将多智能体系统与独立q - learning (IQL)集成用于目标跟踪。

3.材料和方法

3．1. ReinforceNet模型在本节中，我们将介绍我们的reinforcement learning嵌入式目标检测框架，详细的，完整的技术流程如图2所示，由三个主要部分组成:(i)multiple RL agent联合生成更精确的候选框，(ii)选择最优候选框的RS-net， (iii)提炼最优候选框作为检测结果的BBR-net。以上所有部分将在下面的小节中进行说明。

3.1.1 RL agent

在reinforcement网络中，RL agent负责生成候选框，如图2所示。具体来说，我们的RL agent依赖预训练好的vgg16模型作为骨干架构，由于该模型具有强大的特征提取优势。给定一个输入图像，它可以直接提供与我们的RL agent链接的特征图，以生成附近的候选框。在我们的工作中，我们的multiple RL agent是DQN框架，其输入(即MDP中的状态)包含两个部分:当前区域图像的特征向量和所采取的动作历史向量。此外，DQN的输出是给定状态下每个行动的累积奖励值的期望估计。在测试阶段，训练良好的RL agent使用贪婪策略选择和执行奖励最大的动作，并生成候选框，如图3所示。

图2所示。我们提出的强化技术管道。首先，将输入图像送入CNN主干，得到特征图。其次，RL agent 通过观察特征图来执行一系列的动作来定位目标，同时输出一组候选框。随后，利用RS-net(包括iou-net和cpl-net)选择最优区域方案。最后，BBR-net负责进一步细化最优结果.

具体来说，在测试一幅图像时，首先将整个图像送入vgg16骨干网，得到特征向量。然后特征向量连接历史动作向量作为状态，其中历史动作向量表示已采取的动作序列。然后，一个训练好的RL agent观察状态，通过动作决策策略对动作空间进行采样，然后执行动作将当前图像转换为相应的纵横比子区域。最后获得的子区域继续执行上述过程，直到触发终端动作。收集上述所有子区域
共同作为候选框。

3.1.2 RS-net

RS-net的目的是通过两个子网从候选框中选择最优的区域:loU-net和cpl -net(如图4所示)。这两个子网联合建模一个有区别的区域选择，并在图像中对应的候选框上对齐。以图4为例，给出了飞机图像RS-net的详细优化区域选择过程。给定RL agent提供的候选框，lounet和cplnet分别给出每个区域的loU和complete值，分别用绿线和蓝线表示。然后在Eq(4)中计算ICPL得到红线。红线峰值对应的时间步长区域为最优区域。

lounet:在图2和图4中，RL agent 为每个图像生成不同大小的候选框。为了匹配lou-net的输入，首先将每个候选框大小调整为224 x 224分辨率，而不考虑其纵横比，然后将其馈送到Vgg16骨干网中，得到相应的feature map。将特征图送入4层全连接层进行loU预测。对于IoU-net训练，我们利用训练良好的RL agent收集训练样本，在PASCAL VOC上迭代变换初始边界框(即整个图像)
在2007和2012年数据集上。同时我们引入ground truth(正确标记值)来计算每个候选框的标签，即eq(1)中的IoU。

假设收集的样本数目是N，每个候选框的值bi,i(1,,,n)和它的真实值gi之间的Ioui值可以定义为

（1）

其中和分别是b和g的交和并，为了优化iou-net,我们采用smooth-L1 loss:

（2）

其中n是每次训练的样本数目。不难看出，候选框的 Iou值在图五a的分布中是不均匀的，因此导致了一个糟糕的预测器。为了解决这个问题，我们设计了以下训练流程:(1)首先。我们从这个候选框集合中移除带有ground truth的loU小于0.3的边界框。(2)第二，我们对筛选出来的候选框集合按Iou值进行排序，然后把它们分割成7个区域。然后，我们从每个分割区域中统一抽取一批候选框来训练loU-net。(3)标签值变换:最后，我们对loU标签值进行2 × loU-1的变换，使样本标签值保持服从标准的均值为0的高斯分布. 根据经验，这种数据生成过程为IoU网络带来了更好的性能和健壮性。

CPL -net

计算完整性的第二个子网络，联合考虑了优化问题中相邻区域的变化幅度。在图5-(b)中，实验表明，各候选框的完整性值按时间顺序逐渐降低，候选框集分布不均匀，大部分区域的完整性值聚集在0.7左右。为了训练CPL-net，我们通过训练良好的RL agent手动生成样本，然后给每个样本分配标签(即式(3)中的complete)。假设采集的样本数为M，每个候选框的bj，j {1，..， N}及其边界框的ground truth 值gj之间的完整性值定义为:

（3）

其中是b和g的交，为了优化CPL-net,我们也采用smooth-L1 loss。特别地，对于CPL-net训练，我们通过这种方式手动产生训练数据：首先，我们使用RL agent来生成连续的候选框作为训练集的一部分，执行与lou-net相似的操作。为了解决样本不平衡的问题，我们通过对原始图像进行随机裁剪，手工构造一些区域，然后根据ground truth选取完整性小于0.6的区域。为了更好地训练cpl -net，我们采用了与lou-net相似的采样策略。为了选择最优区域，我们将Iou-net和cpl-net的输出通过以下操作进行融合:

其中C为agent的数量，在我们的工作中设为3,D为region proposal的数量，小于10，取决于每个image的region proposal 的数量。

3.1.3. BBR网络
如上所述，RS网络（包括IoU网络和CPL网络）旨在选择最合适的区域方案。
尽管RS-net消除了目前基于RL的方法由于缺乏有效的区域选择策略而将最后一步的非最优区域作为检测结果的问题，但RS-net的输出并不令人满意。因此，在RS-net之后，我们提出了一个额外的BBR-net来进一步提高性能。因此，agent无法在IoU-net和CPL-net选择的方案处终止其顺序决策过程.

BBR-net被提出用来细化RS-net选择的最优区域。其中，BBR-net由5个全连接层组成，前4层和最后一层分别用于特征缩放和边界框回归。然而，候选框的任意大小与BBR-net的固定维输入之间存在冲突。不同于Faster RCNN利用Rol池化层解决它，我们提出的reinforcenet通过将任意大小的区域建议调整为普通的224 x 224分辨率，对裁剪后的小目标区域获得信息表示具有明显的优势。如图2所示，首先从整个图像中裁剪出最优的黄色框，然后调整大小为224 x 224分辨率。接下来，我们将调整大小后的黄色框输入Vgg16骨干，该骨干在ImageNet数据集上进行过预训练，用于提取特征图。最后，更精确的红色框被BBR-net预测出来通过观察已获得的特征图。

此外，为了缓解训练数据集和测试数据集的分布差异，对于BBR-net训练，我们精心构建了两种训练样本:首先，我们将PASCAL VOC 2007和2012训练集送到RL agent，以生成候选框。其次，我们引入ground truth值来计算图像中每个区域的IoU。最后，我们选择IoU值最大的区域（1）和IoU值大于0.4的区域（2）组成训练集。为了保持平移和旋转不变性，我们对训练集中每个区域对应的监督坐标进行变换，类似于[13]。此外，我们引入smooth-L1损耗[9]优化BBR网络以获得更好的性能

3.2 ReinforceNet优化

本质上，候选框被认为是目标检测的关键因素。为此，我们重新开发了一个奖励函数来优化RL agent生成更精确的候选框，从而深刻地提示后续的选择和回归任务。此外，由于使用单个agent提供候选框可能会获得令人满意的结果，它只能得到次优解。因此，我们将多个RL agent联合起来，丰富了目标检测的表达性。

3.2.1 奖励函数

在形式上，MDP由三个关键组成部分:预定义的动作集、固定维度的状态和奖励函数。在本研究中，状态空间的定义类似于[8|]，而动作空间则被水平和垂直抑制两种新动作扩展了0.7倍。这两个增加的动作可以缓解检测结果的不完全性问题。所有动作如图3所示，动作分为两类，即移动图像区域的变换动作和停止搜索过程的终端动作。就转化行为而言，这种奖励功能应该反映状态转移的绩效变化。奖励函数如下所示:

而在我们的工作中，通过考虑Eq.(3)和预定义的动作空间，我们清楚地发现CPL(St, St+1) < 0。其中第一项与loU相关，我们设r为1。当变换良好(即loU增加)时，得到的值为正1，相反为负1。第二项显示了loU和完全性的变化幅度。当变化较大时，该项值较大。第三项是加速RL agent运行过程的惩罚因子。对于终端动作，对应的奖励函数设置与|6,7]相似，只是奖励值设置为5。一旦执行此操作，agent 将停止搜索进程。

3.2.2 . Multiple agents

随着训练次数的增加，RL agent能够逐步增强学习能力是合理的。在以往的研究中[1,2,5-7]，研究人员习惯于固定单个epoch agent进行测试。以往的方法取得了良好的性能，而固定的单agent方法选择候选框可能只能得到次优解。从[8]中可以看出，在recall大于0.3时，第50个 epoch的精度明显低于第45 epoch。为了解决这一问题，我们引入了多agent在更大范围内搜索最优区域。高级空间。具体来说，我们利用多个agent联合生成候选框，然后利用RS-net在所有候选框中选择最优方案。通过大量的实验，我们发现随着训练过程的进行，agent的能力不一定会增加，每个epoch agent对不同尺度的对象表现出不同的敏感性。为此，我们整合了multi-epoch agents，针对不同尺度的目标寻找更合适的区域方案。由于在同一个训练过程中，多个agent来自不同的epoch，所以agent通常会做出不同的决策。此外，为了平衡计算成本和由多个agent主导的性能改进，我们实施了模型修剪策略[27]，通过对PASCAL VOC 2007验证集上最近15个epoch的准确性进行排序，来决定选择哪些epoch agent。最后，通过实验，我们发现第39、45、50代的agent以一种折衷的方式共同生成候选框是合适的。多个RL agent的区域生成过程如式(4)所示。

4. 结果与讨论

4．1. 实验设置

本节所有实验都是在PASCAL VOC 2007 29]和2012[30]这两个广泛使用的对象检测基准数据集上进行的，这两个数据集共包含20个类别。由于VOC 2012测试集ground truth annotation尚未公开，我们精心设计了两套实验。1)用2007年和2012年训练验证集的结合对进行ReinforceNet训练，并在VOC 2007测试集进行测试;2)用VOC 2012训练集对ReinforceNet进行训练，用VOC 2012验证集对其进行测试。我们用全卷积骨干架构Vgg16提取特征来表示所有候选框，Vgg16的模型在ImageNet上进行了预训练16,28]。具体来说，我们使用50个epoch来训练RL agent，这是前人[8]的建议。我们还在Eq.(5)中设置了β= 0.01和γ=0.001，以稳定和加快训练过程。除了mAP度量外，报告的结果采用平均loU度量[31]，以彻底评估提出的改进的效果。我们使用Keras框架和GTX TITAN X GPU实现。

4．2．性能比较

在本节中，我们通过定性和定量的分析来展示我们所提出的强化机制的有效性。我们测试了基于原型强化学习的 based Hierarchical-RL detector [8],, CaicedoRL detector [6], and Tree-RL detector [7], Multitask-RL detector [10], Multistage-RL detector [38], Parameterized-RL detector [39], Stefan-RL detector，以在章节4.2.1中进行比较。此外，我们还选择了典型的基于vgg的Faster R-CNN检测器[9]、YOLO检测器[10]和SSD检测器[38]与我们在章节4.2.2中的模型进行比较。所有的探测器都使用VGG16作为CNN主干网进行比较。此外，我们采用原始文献中报道的最佳结果进行比较。

4.2.1与基于rl的方法的性能比较

平均精度性能:表1和表2清楚地说明了以下每种方法的平均精度(AP)，包括我们提出的强化模型。Tree-RL, Hierarchical-RL, Caicedo-RL, Multitask-RL, Multistep-RL, Parameterized-RL, Stefan-RL在PASCAL VOC 2007测试和2012验证集。观察到，我们ReinforceNet的性能明显优于最先进的方法。与现有的基于rl的VOC 2007检测器相比，该方法的mAP比hierarchical -rl提高了45.6分，比Caicedo-RL提高了27.6分，比Tree-RL提高了0.6分，比Multitask-RL提高了25.1分，比Multistep-RL提高了33分，比Parameterized-RL提高了0.1分。此外，我们的方法在VOC 2012上比Stefan-RL高出41.4分，在VOC 2012上比hierarchly - rl高出32.4分。具体来说，我们的方法的巨大改进归功于开发了奖励函数，更好地优化RL agent选择更合适的行为，并增加了BBR-net进行进一步回归。此外，我们还扩展了Hierarchical- rl的动作空间，从而更好地拟合目标的纵横比。

平均Iou表现

表3和表4显示了每一类Hierarchical- rl的平均Iou,Faster R-CNN和我们提出的 ReinforceNet在PASCAL VOC 2007测试集和2012验证集的强化集上。平均loU衡量的是ground truth与检测结果之间的整体贴近程度。可以看出，在PASCAL VOC 2007测试集和2012验证集上，reinforcenet的表现比hierarchi - rl高出36.5分和29.6分。这是因为开发的奖励函数使得RL agent对小的变化非常敏感，训练良好的RL agent可以产生更多最优的候选框。此外，BBR-net利用行动空间和特征空间对候选框进行进一步细化，得到更高的平均loU。与Faster RCNN相比，我们的reinforcenet在PASCAL VOC 2007测试和2012验证集上分别提高了1.6和0.2分。

4.2.2 与基于cnn的方法性能比较

基于rl的目标检测方法不同于基于cnn的方法。基于rl的方法将目标检测描述为马尔可夫决策过程，可能会在几个步骤中搜索检测到的目标，而基于cnn的方法通常需要分析数万个预先计算的建议。在非密集目标检测领域，基于rl的方法比基于cnn的方法更有效。对于我们的reinforcenet，主要贡献是改进了Markov过程的pipeline。选择最优候选框的思想可能会激发其他基于rl的应用，如基于rl的图像裁剪[1]，图像去噪[41]，图像恢复[42]。与基于CNN的方法的比较性能如表5所示。可以清楚地看到，我们的reinforcement learning优于有前景的基于shallow Vgg16骨干的Faster R-CNN，这证明了reinforcement learning agent在利用shallow feature extraction生成高质量的object proposal方面是非常强大的。该方法的性能比YOLO高10.3分，与SSD的性能相当。我们的基于RL的方法在检测精度(AP)和计算成本(所需的候选框数)上有很好的权衡。因此，我们认为我们的方法在SOTA（state of the art）对象检测方法中具有很高的研究价值和优势。

4.2.3可视化的比较

如图6和图7所示，我们对比了我们的reinforcenet和基于reinforcement learning的art -of-the-art methods以及有前景的Faster RCNN的检测结果在Pascal VOC 2007和VOC 2012上。红框表示我们的reinforcement检测结果。绿框表示我们的RS-net选择的最佳区域。黄色框和蓝色框分别显示了Hierarchical-RL和Faster R-CNN的检测结果。可以清楚地看到，我们所提议的强化技术优于现状。

4.3. Ablation studies

在本节中，我们对PASCAL VOC 2007测试和2012验证集进行了一系列消融研究，以分析每个组件的重要性。

RS-net的消融研究:RS-net的消融研究如表6所示。RS-net由两个子网组成，即:loU-net CPL-net。利用这两个子网共同选择最优区域，其中lou-net为主，cpl-net为辅。

IoU-net: 在表6中，从前两行可以清楚地看到，在VOC 2007和2012年，lou-net的AP分别比基线高12.0和6.7分，这意味着lou-net的有效性。这与结论是一致的，最后一步的候选框不一定是最优的，而lounet是选择目标检测最优区域的关键。

cpl -net:考虑到第四行和第五行，cpl -net将AP从70.3提高到72.0，将67.4提高到71.3，验证了cpl -net的有效性。具体来说，原因是更完整的候选框很容易被提炼成ground truth，如图8所示。BBR-net的消融研究:考虑到BBR-net的作用，我们可以集中在表6的第三和第四行。再加上BBR-net，在VOC2007和2012数据集上的定位结果分别从53.4提高到70.3和55.8提高到67.4，表明BBR-net是提高定位性能的关键。

multiple agents消融研究:multiple agents消融研究显示在所有表格的最后一行。具体来说，在表5中，2007年和2012年，multiple agents在VOC上分别比single agent基线高1.7和1.6

5. 结论

在本文中，我们提出了一个基于RL的目标检测框架，该框架包含了RS-net和BBR-net。RS-net使我们能够结合lou -net和cpl -net来选择目标的最优区域。在实际应用中，该框架能够有效地计算出每个区域方案的loU和完全性值，可以用于寻找更合适的区域方案。为了进一步细化RS-net输出的最优区域，我们引入了BBR-net来将最优区域收敛到ground truth。这将显著提高对象检测的性能。此外，提出了loU和完整性的综合奖励函数来提高agent在线学习的效率。使用这种RL策略，检测模型具有更丰富的表达能力，可以解决对象定位不准确的问题。我们将我们的强化网络与有前景的方法一起实施在使用广泛的PASCAL VOC 2007和VOC 2012对象检测基准上。实证结果表明，我们的强化技术达到了最先进的性能。