【目标检测】Receptive Field Block Net for Accurate and Fast Object Detection论文理解

摘要

  目标检测器现状:
  (1)目前性能最好的目标检测器依赖于深度CNN骨干,如ResNet-101和Inception,拥有强大的特征表示,但承受着高计算成本。
  (2)一些基于轻量级模型的检测器实现了实时处理,但其准确性通常降低。
  本文:
  探索了一种替代方法,通过使用手工制作的机制来加强轻量级特征,从而建立一个快速和准确的检测器。受人类视觉系统感受域(RFs,Receptive Fields )的启发,提出新型感受野模块(RFB,Receptive Field Block),考虑感受野(RFs)的尺寸和偏心距之间的关系,以提高特征的可分辨性和鲁棒性。
  实验:
  将RFB组装到SSD的顶部,构建了RFB网络检测器。为了验证其有效性,在两个主要基准上进行了实验,实验结果表明,RFB网络在保持实时性的前提下,能够达到先进深度检测器的性能。
  代码:https://github.com/ruinmessi/RFBNet.

1 引言

  基于区域的目标检测器(两阶段):
  近年来,基于区域的卷积神经网络(R-CNN)及其代表更新的后代,如Fast R-CNN和Faster RCNN在主要挑战和基准上不断提升目标检测的性能,如Pascal VOC , MS COCO和ILSVRC。基于区域的网络将目标检测问题表述为一个两阶段的问题,并构建了一个典型的管道,第一阶段假设给定图像中的类别不可知对象提案,第二阶段根据基于CNN的深度特征对每个提案进行分类。人们普遍认为,CNN的表征起着至关重要的作用,期望学习到的特征具有高辨别力编码对象特征、良好的鲁棒性调整位置变化(通常是由不准确边框引起的)
  最近的一些努力证实了这一点:1)从更深的CNN骨干中提取特征,如ResNet和Inception;2)引入了自顶向下的架构,构建特征金字塔,整合底层和高层信息;3)最新性能最好的Mask R-CNN生成RoIAlign层,以生成更精确的区域特征。这些方法都采用了改进的特征以达到更好的效果,然而这些特征基本上来自于计算成本较高的深层神经网络,导致其推理速度较慢。
  单阶段目标检测器:
  为了加速检测,提出单阶段框架,其中对象提案生成阶段被丢弃。开创性的尝试,如You Look Only Once (YOLO)和Single Shot Detector (SSD)展示了实时处理的能力,但往往会牺牲准确性,与最先进的两阶段解决方案相比,精度明显下降了10%到40%。最近反卷积SSD (DSSD)和RetinaNet大大改善了精度分数,与两级检测器报告的顶级分数相当,但性能提高归功于非常深的ResNet-101模型,也限制了效率。
  结论:
  (1)根据上面的讨论,要建立一个快速而强大的检测器,一个合理的替代方案是通过引入某些手工制作的机制来增强轻量级网络的特征表征,而不是固执地深化模型
在这里插入图片描述
(图1:人类群体感受野(pRF)特性的规律。(A)在人类视网膜图中 pRF大小为偏心度的函数,其中两个趋势是明显的:(1)在每个视网膜图中pRF大小随着偏心度增加而增加(2)pRF大小不同的地图。(B)基于(A)中的参数的 pRF空间阵列。每个圆的半径是在适当的偏心度处的感受野尺寸。

  (2)另一方面,神经科学中的一些发现表明,在人类视觉皮层中,群体感受野(pRF)的大小是视网膜图中偏心度的函数,尽管不同视网膜图之间存在差异,但在每个视网膜图中pRF的大小随着偏心度的增加而增加(如图1),它有助于突出靠近中心区域的重要性,并提高对小空间变化的敏感性。一些浅层描述符利用该机制设计或学习池化方案,在图像patch匹配方面表现出良好的性能。
  感受野改进:
  目前深度学习模型通常在特征图上,以规则的采样网格,设置相同大小的感受野,可能会导致特征的可辨别性和鲁棒性的损失。
  (1)Inception :考虑多个大小的感受野,通过使用不同的卷积核启动多分支CNN来实现这个概念。Inception 变体,在目标检测(两阶段框架)和分类任务中实现了竞争结果。然而Inception中的所有卷结核都是在同一个中心采样的。
  (2)Atrous Spatial Pyramid Pooling (ASPP):提出类似想法,利用Atrous空间金字塔池(ASPP)来捕获多尺度信息。该算法在顶部特征图上应用多个不同速率的平行卷积来改变从中心的采样距离,在语义分割中取得了较好的效果。但这些特征在之前相同卷积核大小的卷积层中只有统一的分辨率,与雏菊形状的卷积层相比,产生的特征往往没有那么显著。
  (3)可变形CNN:试图根据物体的规模和形状自适应地调整RFs的空间分布。虽然它的采样网格是灵活的,但没有考虑感受野的偏心度影响,其中感受野中所有像素对输出响应的贡献相等,并没有强调最重要的信息。
  本文感受野模块(RFB):
  受人类视觉系统中感受野(RFs)结构的启发,提出了一种新的感受野模块(RFB),以加强从轻量级CNN模型中学习到的深度特征,从而实现快速准确的检测。
在这里插入图片描述
(图:通过结合具有不同卷积核的多个分支和膨胀卷积层来构建RFB模块。多个卷积核类似于不同大小的感受野,而膨胀卷积层为每个分支分配一个单独的偏心度,以模拟感受野大小和偏心度之间的比率。 在所有的分支中进行串联和1×1 conv,最终得到感受野的空间阵列,与人类视觉系统相似,如图1)

  具体来说,RFB利用多分支池,不同分支应用不同大小不同的卷积核对应不同大小的感受野,应用膨胀卷积层(dilated convolution layers)来控制偏心度,并对其进行重塑生成最终的表征(如图2)。
  将RFB模块组装到SSD的顶部,这是一种具有轻量级主干的实时方法,并构建一个先进的单阶段检测器(RFB网络)。多亏了RFB这个简单的模块,RFB网络提供了相对体面的分数,可以与最新的基于更深骨干网的探测器相比,并保持了最初轻量级检测器的快速速度。此外RFB模块是通用的,对网络体系结构施加很少的约束。
  本文主要贡献:
  1.提出了RFB模块来模拟人类视觉系统中感受野的大小和偏心度的配置,旨在增强轻量级CNN网络的深度特征。
  2.提出基于RFB网络的检测器,通过简单地用RFB代替SSD的顶层卷积层,在保持计算成本可控的同时,性能显著提高。
  3.RFB网络在Pascal VOC和MS COCO上以实时处理速度取得了最先进的结果,并通过将RFB与MobileNet连接来展示RFB的泛化能力。

2 相关工作

  两阶段检测器:
  (1)R-CNN直接结合了裁剪框建议的步骤(选择性搜索等),并通过CNN模型进行分类,与传统方法相比,获得了显著的准确率提高,开启了目标检测的深度学习时代。
  (2)它的后代Fast R-CNN, Faster R-CNN更新了两阶段框架,并实现了优势性能。
  (3)一些有效的扩展进一步提高检测精度,如R-FCN , FPN, Mask R-CNN
  一级检测器:
  (1)最具代表性的是YOLO和SSD,基于整个特征图预测多个物体的置信度和位置,这两种探测器都采用了轻量级的主干,而它们的精度显然落后于顶级的两阶段方法。
  (2)最近更先进的单级探测器,如DSSD和RetinaNet通过更深的ResNet-101更新了原来的轻量级主干,并应用了某些技术,如反卷积或Focal Loss,其精度与最先进的两阶段方法相当,甚至优于它们。然而性能提高很大程度上消耗了在速度方面的优势。
  感受野:
  本研究目标是在不增加太多计算负担的情况下提高高速单阶段探测器的性能。因此RFB代替了非常深的主干,它模仿了人类视觉系统中的RFs机制,用来增强基于轻量级模型的特征表示。事实上在CNN中有一些关于RFs的研究,其中最相关的是Inception家族,ASPP和Deformable CNN
  (1)Inception块:采用具有不同卷积核大小的多个分支来捕获多尺度信息。然而,所有的卷积核都是在同一个中心采样,这就需要更大的卷积核才能达到相同的采样范围,因此丢失了一些关键的细节。
  (2)ASPP:膨胀卷积改变了距离中心的采样距离,但特征与之前相同核大小的卷积层具有一致的分辨率,这可能导致在所有位置上的线索都是平等的,可能导致对象和上下文之间的混淆。
  (3)可变形的CNN:学习了单个物体的独特分辨率,但它也有和ASPP一样的缺点。
在这里插入图片描述
(图3:空间感受野的四种典型结构。(a)Inception中多个大小的卷积核。(b)ASPP中的菊花状池配置。©可变形卷积,根据对象特性产生自适应RF。(d)RFB机制。每个结构的颜色图是训练模型中对应层的有效RF,用梯度反向传播方法描述。在(a)和(b)中,调整了原始Inception和ASPP中的感受野大小,以进行公平比较。)

  RFB不同于上述,它强调了在菊花形状的配置中感受野大小和偏心度之间的关系,在这种配置中,更大的权重被较小的卷积核分配给更靠近中心的位置(比更远的更重要)。四种典型空间RF结构的差异如图3。Inception和ASPP还没有被成功地用于改进单级检测器,而RFB则展示了一种有效的方法来利用它们的优势。

3 方法

3.1 视觉皮层重新审视

  在过去的几十年,功能磁共振成像(fMRI)以毫米分辨率无创测量人类大脑活动已经成为现实,感受野建模已经成为一个重要的感官科学工具,用于预测反应和明确大脑计算。因为人类神经科学仪器经常观察到许多神经元的聚合(pooled)反应,因此这些模型通常被称为pRF模型。
  基于fMRI和pRF建模,在皮层的多个视野图上研究这种关系称为可能。在每个皮层图中,研究人员发现pRF大小与偏心度之间存在正相关,而相关系数在视野图中存在差异(如图1)。

3.2 Receptive Field Block(RFB)

  RFB是一个多分支卷积块,其内部结构可分为两个部分:
  (1)具有不同卷积核的多分支卷积层:与Inception相同负责模拟多个尺寸的pRF(感受野)
  (2)尾部膨胀池化/卷积层:后一部再现人类视觉系统中pRF尺寸与偏心度之间的关系。

  (图2给出了RFB及其对应的空间池区域图)
  多分支卷积层:
  根据CNN中RF的定义,应用不同的卷积核来实现多个大小的RF,是一种简单而自然的方法,优于共享固定大小的RF。
  采用更新版本中的最新变化,即Inception家族中的InceptionV4和Inception- ResNet V2。
  具体来说:1)首先,利用每个分支的瓶颈结构(一个1 × 1的转换层)减少特征图中的通道数,加上n × n的卷积层。2)其次,将5×5转换层替换为两个堆叠的3×3转换层,以减少参数和加深非线性层。出于同样的原因使用1 ×n + n×1卷积层来代替原来的n×n卷积层。3)最终,采用来自于ResNet和Inception-ResNet V2的快捷方式设计。
  膨胀池化/卷积层:
  膨胀卷积概念最初在Deeplab中引入,也被称为星形卷积层(astrous convolution layer),膨胀卷积结构的基本目的是生成更高分辨率的特征图,在保持相同数量的参数的同时,在具有更多上下文的更大区域捕获信息。该设计在语义分割方面表现出色,并已被一些著名的对象检测器采用,如SSD和R-FCN,以提高速度或/和准确性。利用膨胀卷积来模拟pRFs在人类视觉皮层中的偏心度影响。
  RFB:
在这里插入图片描述
(图4:RFB和RFB-s架构。RFB用于模拟人类浅层视网膜图中更小的pRFs,使用更多的分支和更小的卷积核,使用两层3 × 3的conv代替5 × 5来减少参数)
  图4:给多分支卷积层与膨胀卷积层的两种组合。在每个分支上,特定卷积核大小的卷积层之后是相应膨胀卷积层。视皮层中感受野的大小和偏心度与卷积核大小和扩张卷积有相似的正函数关系。最终所有分支的特征图被连接起来,合并成一个空间池或卷积数组(图1)。

3.3 RFB网络检测体系结构

   RFB网络检测器复用了SSD的多尺度和单阶段框架,但嵌入了RFB模块,改进从轻量级骨干中提取的特征,从而使检测器更加准确和快速。由于RFB易于集成到CNN特性,可以尽可能地保留SSD架构。主要的改进是用RFB代替顶部的卷积层,一些较小但活跃的层如图5。
在这里插入图片描述
(图5:RFB-Net300的管道。conv4 3特征图的尾部是RFB, RFB-s具有更小的感受野,并通过在原RFB中运行步长为2的多卷积核转换层产生一个具有步长为2的的RFB模块。)

  轻量级骨干网:
  使用与SSD完全相同的骨干网,在ILSVRC CLS-LOC数据集上预先训练的VGG16架构,其中fc6和fc7层被转换为带子采样参数的卷积层,pool5层从2×2-s2更改为3×3-s1。利用膨胀卷积层来填充孔洞,去除所有的dropout层和fc8层。尽管最近已经提出了许多完成的轻量级网络(例如DarkNet , MobileNet,和ShuffleNet),但专注于这个骨干网络来实现与原始的SSD的直接比较。
  多尺度特征图上的RFB:
  在原始的SSD中,基础网络经过层层卷积,形成一系列空间分辨率连续下降、感受野连续增加的特征图。在本文实现中,保留了相同的SSD级联结构,但是具有较大分辨率特征映射的前卷积层被RFB模块取代,在RFB的初级版本中使用一个单一的结构设置来模拟偏心度的影响。我们调整RFB形成一个RFB-s模块,并把它设置在conv4 3特征前(图4和图5)。最后几个卷积层被保留了下来,因为它们的特征图的分辨率太小,无法应用像5 × 5这样的大卷积核。

3.4 训练设置

  基于Pytorch框架实现RFB检测器,利用ssd提供的几个开源基础架构部分(https://github.com/amdegroot/ssd.pytorch
  训练策略:遵循SSD,包括数据增强、硬负挖掘、默认框的比例和长宽比,以及损失函数(用于定位的平滑L1损失和用于分类的softmax损失),稍微改变学习率调度以更好地适应RFB。

4 实验

  数据集:在分别有20个和80个目标类别的Pascal VOC 2007和MS COCO数据集上进行了实验。
  评价指标:在VOC 2007中,如果其与ground truth的Intersection over Union (IoU)大于0.5,则预测的包围盒为正;在COCO中,使用各种IoU阈值进行更全面的计算。评价检测性能的指标是平均精度(mAP)。

4.1 Pascal VOC 2007

  数据集: 以2007年和2012年训练集的并集为基础对RFB网络进行训练。
  训练设置: 将batch size设置为32;初始学习率设置为10−3,与原始SSD相同,但这使得训练过程不稳定,损失剧烈波动,因此使用“warmup”策略,在前5个阶段逐步将学习速率从10−6提高到4×10−3,在“warmup”阶段之后,它回到原来的学习速率计划,在150和200个时点除以10;训练epoch总数为250个;利用权重衰减为0.0005和动量为0.9的优化器。
在这里插入图片描述

  表1:与VOC2007测试集上的最新结果之间的比较。
  (1)SSD300和SSD512是经过数据扩展更新的SSD结果,它缩小了图像以创建更多的小示例。为了进行比较,用Pytorch-0.3.0和CUDNN V6重新实现了SSD,与RFBNet的环境相同。
  (2)通过集成RFB层,基本模型RFB Net300,以80.5%的mAP性能优于SSD和YOLO,同时保持了SSD300的实时速度。
  (3)甚至达到了与R-FCN在两阶段框架下的高级模型相同的精度。RFB Net512以更大的输入规模实现了82.2%的mAP,优于大多数配备非常深基础骨干网的一级和二级目标检测系统,同时仍在高速运行。

4.2 消融研究

  RFB模块:
  为了更好地理解RFB,研究每个组件在其设计中的影响,并将RFB与一些类似的结构进行比较。
  表2:
在这里插入图片描述
  (1)原始的SSD300添加了新的数据,达到了77.2%的mAP。通过简单地将最后一层卷积层替换为RFB-max pooling,可以看到结果提高到79.1%,增益为1.9%,这表明RFB模块是有效的检测(表2)。
  (2)皮层图模拟:如3.3节调整RFB参数来模拟皮层图中感受野大小和偏心度之间的比值。这种调整使RFB max pooling的性能提高了0.5%(从79.1%提高到79.6%)(表2)。
  (3)RFB expansion conv提高了0.4%(从80.1%提高到80.5%),这验证了人类视觉系统的机制(表2)。
  (4)更多更早的锚:原始的SSD只在conv4 3、conv10 2和conv11 2特征图位置上关联4个默认的盒子和所有其他层的6个默认锚。最近研究表明,低水平特征对检测小物体至关重要。因此假设,如果在像conv4 3这样低层特征映射中添加更多的锚,那么性能,特别是小实例的性能会有所提高。在实验中在conv4 3处放置6个默认先验,它对原始的SSD没有影响,而RFB模型进一步提高了0.2%(从79.6%提高到79.8%)(表2)。
  (5)的卷积层:在早期实验中,选择膨胀卷积层进行RFB,以避免产生额外的参数,但这些平稳池化策略限制了多个大小的感受野特征融合。当选择膨胀卷积层时,发现它在不减慢推理速度的情况下将准确率提高了0.7%(从79.8%提高到80.5%)(表2)。
  表3:
在这里插入图片描述
  (1)与其他架构的比较:将RFB与Inception、ASPP和Deformable CNN进行比较。对于Inception,除了原始版本之外,改变了它的参数,使其具有与RFB相同的RF大小(称为“Inception- l”)。对于ASPP,其主要参数在图像分割中进行调整,RFs过大,无法检测,在我们的实验中将其设置为与RFB相同的大小(称为“ASPP- s”)。
  图3是两种结构的可视化比较,简单地说将这些结构单独安装在探测器的顶层,如图5,并保持与RFB网络相同的训练计划和几乎相同的参数数。
  (2)对Pascal VOC和MS COCO的评价记录在表3中,可以看到RFB表现最好。专用的RFB结构确实有助于检测精度,因为它有一个更大的有效感受野(见图3)。

4.3 Microsoft COCO

  数据集:在MS COCO数据集上进行实验。使用trainval35k集合(train set + val35k set)进行训练。
  训练设置: batch size设置为32。由于COCO中的对象比PASCAL VOC中的对象要小,所以保留原来的SSD策略,减少默认盒子的大小。在训练的开始仍然应用“warmup”法,即在前5个epoch时,逐步将学习速率从10−6提高到2 × 10−3,然后在80和100个epoch后再降低10倍,最后达到120。
  表4:
在这里插入图片描述
  (1)RFB Net300 test-dev集达到30.3% / 49.3%,超过基线的SSD300 *,有很大的优势,甚至等于R-FCN-resnet - 101输入较大(600×1000)两个阶段框架目标检测器。
  (2)对于更大的模型,RFB Net512的结果略低于最近先进的单阶段模型的结果,但仍可与之相比较(33.8% vs. 34.4%)。
  (3)RetinaNet利用了深度ResNet-101-FPN骨干,一个新的损失focal损失,使学习集中在困难的例子上,而RFB网只建立在一个轻量级的VGG模型上。可以看到RFB Net500平均消耗30 ms处理每张图像,而RetinaNet需要90 ms。
  (4)基于高达800像素分辨率,retinanet800报告了最高的精度(39.1%)(众所周知更大的输入图像尺寸通常产生更高的性能)。考虑两个有效的更新:1)在应用RFB-s模块之前,向上采样conv7 fc特征映射并将其与conv4 3连接,共享与FPN相似的策略;2)在所有RFB层中添加一个带有7×7卷积核的分支。从表4中可以看出进一步提高了性能。

5 讨论

  推理速度比较:
  在表1和图6中,展示了与其他最近性能最好的检测器的速度比较。在我们的实验中,不同数据集中的推理速度略有不同,因为MS COCO有80个类别,并且平均密集实例在NMS进程上消耗更多的时间。
  (1)表1:
在这里插入图片描述
  RFB Net300是实时检测器中最准确的(80.5% mAP),在Pascal VOC中运行速度为83帧/秒,而RFB Net512仍然以38帧/秒的速度提供了更准确的结果。
  (2)图6:
在这里插入图片描述
  绘制RFB网络的速度/准确性权衡曲线,并将其与RetinaNet,MS COCO测试开发集上的其他最新方法进行比较。RFB网络在所有实时检测器之间形成了一个上包络线。特别是RFB Net300保持了高速(66帧/秒),同时优于所有高帧率的对手。
  其他轻量级主干网:
  尽管使用的基础主干网是一个精简的VGG16版本,但与那些最近的高级轻量级网络(如MobileNet、DarkNet和ShuffleNet)相比,它仍然有大量的参数。为了进一步测试RFB模块的泛化能力,将RFB连接到MobileNet-SSD,在相同调度的MS COCO train+val35k数据集上进行训练,并在minival上进行评估。
在这里插入图片描述
  表5:显示RFB仍然提高了MobileNet的准确性,附加层和参数有限的骨干。这表明它在低端设备上的应用程序具有巨大的潜力。
  从头开始训练:
  RFB模块的另一个有趣的特性,即从头开始有效地训练对象检测器。
  最近发现在没有使用预先训练的骨干的情况下进行训练是一项困难的任务,在两阶段框架中所有的网络结构都不能从头开始训练,而在一阶段框架中流行的cnn (ResNet或VGG)成功地收敛,结果要差得多。深度监督对象检测器(deep Supervised Object detector, DSOD)提出了一种轻量级结构,在没有进行预处理的情况下,在VOC 2007测试集上获得了77.7%的mAP,但在使用预处理过的网络时并没有提高性能。
  从头开始在VOC 07+12 trainval集上训练RFB Net300,在相同的测试集上达到77.6%的mAP,这相当于DSOD。值得注意的是预训练版本将性能提高到80.5%。

6 结论

  本文提出了一个快速而强大的目标检测器,与广泛采用的深度加深主干的方式相比,引入一种手工制作的机制,即感受域块(RFB)来增强轻量级网络的特征表示,该机制模仿了人类视觉系统中的感受野结构。RFB度量了感受野大小和偏心度之间的关系,并产生了更有区别性和鲁棒性的特征。
  RFB装备在轻量级的基于CNN的SSD之上,结果检测器在Pascal VOC和MS COCO数据库上提供了显著的性能增益,其最终精度甚至可以与现有的高性能的基于更深模型的检测器相媲美。此外还保留了轻量化机型在处理速度方面的优势。

  • 6
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值