论文阅读:EfficientDet:可扩展且高效的目标检测

0.前言

论文地址:https://arxiv.org/abs/1911.09070
代码地址:https://github.com/google/automl/tree/master/efficientdet
在这里插入图片描述

摘要

模型效率在计算机视觉中的地位越来越重要。本文系统地研究了用于目标检测的各种神经网络结构设计选择,并提出了几种提高效率的关键优化方法。首先,我们提出了一种加权双向特征金字塔网络(BiFPN),该网络允许简单快速的多尺度特征融合;其次,我们提出了一种复合尺度方法,该方法可以同时均匀地对所有骨干网、特征网络和box/类预测网络的分辨率、深度和宽度进行缩放。基于这些优化,我们开发了一个新的对象检测器家族,称为EfficientDet,它在广泛的资源限制范围内始终比现有技术获得一个数量级更好的效率。特别是,在没有钟声和哨声(without bells and whistles,就是说没搞那些涨精度的tricks,比如各种调参,数据集增广啥的)的情况下,我们的EfficientDTET-D7在COCO数据集上实现了最先进的51.0mAP,它有52M参数和326B FLOPS(网络中乘法和加法的数目),体积小了4倍,使用的FLOPS少了9.3倍,但仍然比以前最好的检测器更精确(+0.3%mAP)。
在这里插入图片描述

1.介绍

近年来,在更精确的目标检测方面取得了巨大的进展,同时,最先进的目标检测器也变得越来越昂贵。例如,最新的基于 AmoebaNet的NAS-FPN检测器[37]需要167M的参数和3045B的FLOPS(比RetinaNet[17]多30x),才能达到最先进的精度。巨大的模型尺寸和昂贵的计算成本阻碍了它们在许多实际应用中的部署,例如机器人和自动驾驶汽车,在这些应用中,模型尺寸和延迟受到高度限制。考虑到这些现实世界的资源约束,模型效率对于目标检测变得越来越重要。
以前有许多工作旨在开发更高效的探测器架构,如单级[20、25、26、17]和无锚探测器[14、36、32],或者压缩现有的模型[21,22]。尽管这些方法往往能获得更好的效率,但它们通常会牺牲准确性。此外,以往的研究大多只关注特定或小范围的资源需求,但现实世界中的各种应用,从移动设备到数据中心,往往需要不同的资源约束。
一个自然的问题是:是否有可能在广泛的资源限制(例如从3B到300B的FLOPS)中构建一个既具有更高精度又具有更好效率的可扩展检测体系结构?本文旨在通过系统研究探测器结构的各种设计选择来解决这一问题。基于单级检测器范式,我们研究了主干网、特征融合和类/盒网络的设计选择,并确定了两个主要挑战:
挑战1:高效的多尺度特征融合 就像在【16】中介绍的那样,FPN在多尺度特征融合中得到了广泛的应用。最近,PANet[19]、NAS-FPN[5]和其他研究[13、12、34]开发了更多的用于跨尺度特征融合的网络结构。在融合不同的输入特征时,以往的研究大多只是简单的归纳,没有区别;然而,由于这些不同的输入特征具有不同的分辨率,我们观察到它们对融合输出特征的贡献往往是不平等的。为了解决这一问题,我们提出了一种简单而高效的加权双向特征金字塔网络(BiFPN),它引入可学习的权值来学习不同输入特征的重要性,同时反复应用自顶向下和自下而上的多尺度特征融合。
挑战2:模型缩放 虽然以前的工作主要依赖于更大的主干网络[17、27、26、5]或更大的输入图像大小[8、37]以获得更高的精度,但我们观察到,在兼顾精度和效率的情况下,放大特征网络和盒/类预测网络也是至关重要的。在文献[31]的启发下,我们提出了一种目标检测器的复合标度方法,该方法联合提高了所有骨干网、特征网络、盒类预测网络的分辨率/深度/宽度。

最后,我们还观察到,最近引入的EfficientNets[31]比以前常用的主干(例如ResNets[9]、ResNeXt[33]和AmoebaNet[24])获得更好的效率。将EfficientNet骨干网与我们提出的BiFPN和复合标度相结合,我们开发了一个新的目标检测器家族EfficientDet,与以前的目标检测器相比,它在参数和触发器数量级较少的情况下,始终获得更好的精度。图1和图4显示了COCO数据集的性能比较[18]。在类似的精度限制下,我们的efficientdtet使用的FLOPS比YOLOv3少28倍[26],比RetinaNet少30倍[17],比最近的NASFPN少19倍[5]。特别是,在单模型和单测试时间尺度下,我们的EfficientDTET-D7在52M参数和326B FLOPS下实现了最新的51.0 mAP,比以前最好的模型小4倍,使用的触发器少9.3倍,但仍然更精确(+0.3%mAP)[37]。我们的EfficientSet模型在GPU上的速度比以前的探测器快3.2倍,在CPU上的速度比以前的探测器快8.1倍,如图4和表2所示。

我们的贡献可以被总结为:

  • 提出了一种用于多尺度特征融合的加权双向特征网络BiFPN。
  • 我们提出了一种新的复合缩放方法,该方法联合性地将骨干网、特征网、盒类网和分辨率联合起来进行缩放。
  • 基于BiFPN和复合标度,我们开发了EfficientDet,这是一个新的探测器系列,在有广泛资源限制范围的应用中具有显著的更好的精度和效率。

2.相关工作

**一级探测器:**现有的目标探测器主要根据它们是否有感兴趣的建议步骤(两级[6,27,3,8])区域(一级[28,20,25,17])来分类。虽然两级检测器往往更灵活、更精确,但通常认为一级检测器通过利用预定义的锚更简单、更高效[11]。近年来,单级探测器因其效率高、简单等优点引起了人们的广泛关注[14,34,36]。本文主要遵循单级检测器的设计思想,通过优化网络结构,可以达到更高的效率和精度。
**多尺度特征表示:**有效地表示和处理多尺度特征是目标检测的主要难点之一。早期的检测器通常直接根据从骨干网络中提取的金字塔特征层次进行预测[2,20,28]。作为开创性的工作之一,特征金字塔网络(FPN)[16]提出了一种自顶向下的方法来组合多尺度特征。遵循这一思想,PANet[19]在FPN的基础上增加了一个额外的自底向上的路径聚合网络;STDL[35]提出了一个规模转移模块来开发跨规模特征;M2det[34]提出了一个U形模块来融合多规模特征,G-FRNet[1]引入了门单元来控制跨特征的信息流。最近,NAS-FPN[5]利用神经架构搜索自动设计特征网络拓扑。尽管NAS-FPN能获得更好的性能,但它在搜索过程中需要数千个GPU小时,并且生成的特征网络是不规则的,因此很难解释。本文旨在以更直观、更具原则性的方法对多尺度特征融合进行优化。
**模型缩放:**为了获得更好的精度,通常通过使用更大的骨干网络(例如,从移动大小的模型[30,10]和ResNet[9],到ResNeXt[33]和AmoebaNet[24])或增加输入图像大小(例如,从512x512[17]到1536x1536[37])来放大基线检测器。最近的一些工作[5,37]表明,增加频道大小和重复特征网络也可以导致更高的精度。这些缩放方法主要集中在单个或有限的缩放维度上。最近,[31]显示了通过联合缩放网络宽度、深度和分辨率进行图像分类的显著模型效率。我们提出的目标检测的复合缩放方法主要受到了[31]的启发。

3.BiFPN

在这一节中,我们首先阐述了多尺度特征融合问题,然后介绍了两个我们提出的BiFPN的主要思想:有效的双向交叉尺度连接和加权特征融合。

3.1 问题描述

多尺度特征融合的目的是对不同分辨率的特征进行融合。形式上,给定一个多尺度特征列表~Pin=(Pin l1,Pin l2,…),其中Pin li表示li级别的特征,我们的目标是找到一个转换f,它可以有效地聚合不同的特征并输出一个新特征列表:Pout=f(Pin)。作为一个具体的例子,图2(a)显示了传统的自上而下的FPN[16]。它采用3-7级输入特征~Pin=(Pin 3,…Pin 7),其中Pin i表示分辨率为输入图像1/2的特征级。例如,如果输入分辨率为640x640,则p3表示分辨率为80x80的功能级别3(640/23=80),而p7表示分辨率为5x5的功能级别7。传统的FPN以自顶向下的方式聚合多尺度特性:
(这里有的公式我实在不知道怎么在csdn这编辑器里写,我截图好吧。。。)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 交叉比例尺连接

传统的自顶向下FPN固有地受到单向信息流的限制。为了解决这个问题,PANet[19]添加了一个额外的自底向上的路径聚合网络,如图2(b)所示。交叉尺度连接在[13,12,34]中有进一步的研究。最近,NAS-FPN[5]使用神经架构搜索来搜索更好的跨尺度特征网络拓扑,但它需要数千个GPU时间去搜索并且最终找到的网络不规则,难以解释或修改,如图2(c)所示。
通过研究这三种网络的性能和效率(表4),我们发现PANet比FPN和NAS-FPN具有更好的精度,但需要花费更多的参数和计算。为了提高模型的效率,本文提出了几种跨尺度连接的优化方法:首先,我们移除那些只有一个输入边的节点。我们的直觉很简单:如果一个节点只有一个输入边而没有特征融合,那么它对以融合不同特征为目的的特征网络的贡献就较小。这将导致一个简化的PANet,如图2(e)所示;第二,如果原始输入节点与输出节点处于同一级别,我们将在它们之间添加额外的边,以便在不增加太多成本的情况下融合更多的功能,如图2(f)所示;第三,与PANet[19]不同,PANet[19]只有一个自顶向下和一个自下而上的路径,我们将每个双向(自上而下和自下而上)路径视为一个特征网络层,并多次重复同一层,以实现更高层次的特征融合。第4.2节将讨论如何使用复合缩放方法确定不同资源约束的层数。通过这些优化,我们将新的特征网络命名为双向特征金字塔网络(BiFPN),如图2(f)和3所示。

3.3 加权特征融合

当融合不同分辨率的多个输入特征时,一种常见的方法是先将它们调整为相同的分辨率,然后对它们进行汇总。金字塔注意网络[15]引入了全局自注意上采样来恢复像素定位,这在[5]中有进一步的研究。
以往的特征融合方法对所有输入特征一视同仁。然而,我们观察到,由于不同的输入特征在不同的分辨率下,它们通常对输出特征的贡献是不平等的。为了解决这个问题,我们建议在特征融合过程中为每个输入增加一个额外的权重,并让网络了解每个输入特征的重要性。基于此,我们考虑三种加权融合方法:
无限融合:O=P iwi·Ii,其中wi是一个可学习的权重,可以是标量(每个特征)、向量(每个通道)或多维张量(每个像素)。我们发现一个比例尺可以在最小的计算成本下达到与其他方法相当的精度。然而,由于标量权重是无限的,它可能会导致训练的不稳定性。因此,我们使用权重规范化来限定每个权重的值范围。
基于Softmax的融合:在这里插入图片描述,一个直观的想法是对每个权重应用softmax,这样所有权重都被规范化为一个值范围为0到1的概率,表示每个输入的重要性。然而,如我们在第6.3节中的消融研究所示,额外的softmax导致GPU硬件显著减速。为了最小化额外的延迟成本,我们进一步提出了一种快速融合方法。
快速标准化融合: 在这里插入图片描述,其中wi≥0是通过在每个wi之后应用Relu来保证的,并且?=0.0001是一个小值,以避免数值不稳定。类似地,每个规格化权重的值也在0到1之间,但是由于这里没有softmax操作,因此效率更高。我们的消融研究表明,这种快速融合方法与基于softmax的融合具有非常相似的学习行为和准确性,但在gpu上运行速度高了30%(表5)。
我们的最终BiFPN集成了双向交叉尺度连接和快速规范化融合。作为一个具体的例子,这里我们描述了图2(f)中所示的BiFPN在6级的两个融合特征:
在这里插入图片描述
其中,Ptd 6是自上而下路径6级的中间特征,pout6是自下而上路径6级的输出特征。所有其他功能都以类似的方式构建。值得注意的是,为了进一步提高效率,我们使用了可分离depthwise 卷积[4,29]进行特征融合,并在每次卷积后添加了批量规范化和激活。

4. EfficientDet

基于我们的BiFPN,我们开发了一个新的检测模型家族EfficientDet。在这一部分中,我们将讨论网络结构和一种新的用于EfficientDet的复合缩放方法。

4.1 EfficientDet结构

图3显示了EfficientDet的总体架构,它大体上遵循了单级检测器范式[20、25、16、17]。我们采用ImageNet预训练有效网络作为骨干网络。我们提出的BiFPN作为特征网络,它从骨干网络中提取3-7级特征{P3、P4、P5、P6、P7},并反复应用自顶向下和自下而上的双向特征融合。这些融合后的特征分别反馈到类和盒网络中,产生对象类和边界盒预测。与[17]类似,类和框网络权重在所有级别的特征中共享。
在这里插入图片描述

4.2 复合标度

为了优化精度和效率,我们希望开发一系列能够满足广泛的资源约束的模型。这里的一个关键挑战是如何扩大基线EfficientDet模型的适用规模。
以前的工作主要是通过使用更大的骨干网络(例如ResNeXt[33]或AmoebaNet[24])、使用更大的输入图像或堆叠更多的FPN层来放大基线检测器[5]。这些方法通常是无效的,因为它们只关注单个或有限的缩放维度。最近的工作[31]通过联合放大网络宽度、深度和输入分辨率的所有维度,在图像分类方面显示出显著的性能。受这些工作的启发[5,31],我们提出了一种新的目标检测的复合尺度方法,该方法使用简单的复合系数φ来联合放大骨干网络、BiFPN网络、类/盒网络和分辨率的所有维度。与[31]不同的是,目标检测器比图像分类模型具有更多的尺度维数,因此对所有维度进行网格搜索代价高昂。因此,我们使用基于启发式的缩放方法,但仍然遵循联合缩放所有维度的主要思想。
**骨干网络:**我们重用EfficientNet-B0到B6的相同宽度/深度比例系数[31],这样我们就可以轻松地重用他们的ImageNet预训练模型。
**BiFPN网络:**我们以指数方式增长BiFPN宽度Wbif pn(#通道)类似于[31],但线性增加深度Dbif pn(#层),因为深度需要舍入到小整数。形式上,我们使用以下等式:
在这里插入图片描述
**盒/类预测网络:**我们将其宽度固定为始终与BiFPN相同(即Wpred=Wbif pn),但使用公式线性增加深度(#层):

在这里插入图片描述
**输入图像分辨率:**由于特征级别3-7用于BiFPN,因此输入分辨率必须可除以2的7次方=128,因此我们使用公式线性增加分辨率:
在这里插入图片描述
根据方程式1,2,3,用不同的φ,我们得到了EfficientDet-D0(φ=0)到D6(φ=6),如表1所示。值得注意的是,如果不更改批大小或其他设置,则使用φ≥7缩放的模型将无法适应内存;因此,我们只需在保持所有其他维度不变的情况下扩大输入大小,就可以将D6扩展到D7,这样我们就可以对所有模型使用相同的训练设置。
在这里插入图片描述

5.实验

我们对COCO 2017检测数据集的效率进行了评估[18]。利用动量为0.9、权值衰减为4e-5的SGD优化器对每个模型进行训练。在初始5%的热身训练阶段,学习率从0线性增加到0.08,然后利用余弦衰减规律进行退火。在每一次卷积后加入批归一化,批范数衰减为0.997,epsilon 1e-4。我们使用衰减为0.9998的指数移动平均。我们还采用了常用的焦距损失(Focal loss)[17],α=0.25,γ=1.5,纵横比{1/2,1,2}。我们的型号在32 TPUv3芯片上接受batch-size=128的训练。我们使用RetinaNet[17]预处理来实现EfficientDet-D0/D1/D3/D4,但为了公平比较,与基于阿米巴网的NAS-FPN检测器的现有技术相比[37]时,我们使用相同的自动增强来实现EfficientDet-D5/D6/D7。
表2比较了在不增加测试时间的情况下,在单模型单尺度设置下,EfficientDet与其他目标检测器的性能。我们的EfficientDet在广泛的精度或资源限制下比以前的检测器获得更好的精度和效率。在相对较低的精度范围内,我们的EfficientDet-D0的精度与YOLOv3相当,它的FLOPS减少了28倍。
在这里插入图片描述
与RetinaNet[17]和Mask RCNN[8]相比,我们的EfficientDet-D1的参数减少了8倍,触发器减少了25倍,达到了类似的精度。在高精度领域,我们的v也始终优于最新的NAS-FPN[5]和[37]中的增强版本,其参数和FLOPS数量级更少。特别是,我们的EfficientDTET-D7实现了一个新的51.0map单模型单尺度,它比[37]中以前的最佳结果小4倍,使用的FLOPS也少9.3倍。值得注意的是,与需要特殊设置的大型基于AmoebaNet的NAS-FPN模型[37]不同(例如,将锚从3x3更改为9x9,并使用模型并行性进行训练),所有EfficientDet模型都使用相同的3x3锚,并且在没有模型并行性的情况下进行训练。

除了参数大小和FLOPS之外,我们还比较了Titan-V GPU和单线程Xeon CPU上的实际延迟。我们用批量1运行每个模型10次,并报告平均值和标准偏差。图4说明了模型大小、GPU延迟和单线程CPU延迟的比较。为了公平比较,这些数字只包括在同一台机器上测量的结果。与以前的检测器相比,EfficientDet模型在GPU上的速度高达3.2倍,在CPU上的速度高达8.1倍,这表明它们在现实世界的硬件上是高效的。
在这里插入图片描述

6.烧蚀研究(就是用不同的网络模块组合进行效果对比)

在这一节中,我们为我们所建议的效率网进行了各种设计选择。

6.1分离骨干和BiFPN

由于EfficientDet同时使用了一个强大的主干网和一个新的BiFPN,我们想了解它们对提高精度和效率的贡献有多大。表3比较了主干网和BiFPN的影响。从ResNet-50[9]主干网和自上而下FPN[16]的RetinaNet检测器[17]开始,我们首先用EfficientNet-B3代替主干网,用较少的参数和FLOPS将精度提高约3 mAP。通过进一步用我们提出的BiFPN代替FPN,我们可以用更少的参数和触发器实现额外的4 mAP增益。这些结果表明,有效的网络骨干和BiFPN都是我们最终模型的关键。
在这里插入图片描述

6.2 BiFPN交叉比例尺连接

表4显示了图2中列出的具有不同跨尺度连接的特征网络的精度和模型复杂性。值得注意的是,最初的FPN[16]和PANet[19]只有一个自上而下或自下而上的流,但是为了进行公平的比较,这里我们将它们分别重复5次(BiFPN也一样)。我们使用相同的主干网和类/盒预测网络,所有实验使用相同的训练设置。如我们所见,传统的自顶向下的FPN固有地受到单向信息流的限制,因此具有最低的精度。虽然重复PANet比NAS-FPN[5]获得稍好的精度,但它也需要更多的参数和FLOPS。我们的BiFPN实现了与重复PANet相似的精度,但使用的参数和FLOPS要少得多。通过附加的加权特征融合,我们的BiFPN以更少的参数和FLOPS进一步达到最佳的精度。
在这里插入图片描述

6.3 Softmax与快速归一化融合

如第3.3节所述,我们提出了一种快速规范化特征融合方法,在保留规范化权重优点的同时,代替昂贵的softmax。表5比较了不同模型尺寸的三个探测器中的softmax和快速归一化融合方法。结果表明,我们的快速归一化融合方法与基于softmax的融合方法达到了相似的精度,但在gpu上运行速度要快1.26x-1.31x。
在这里插入图片描述
为了进一步了解基于softmax和快速规范化融合的行为,图5展示了在EfficientDet-D3中从BiFPN层随机选择的三个特征融合节点的学习权重。值得注意的是,标准化权重(例如,基于softmax融合的e wi/pjewj和快速规范化融合的wi/(?+P jwj)))对于所有输入,总和始终为1。有趣的是,在训练过程中,标准化的权重变化很快,这表明不同的特征对特征融合的贡献是不平等的。尽管权值变化很快,但是我们的快速规范化融合方法在所有三个节点的训练过程中始终显示出与基于softmax的融合非常相似的学习行为。
在这里插入图片描述

6.4 复合标度

如第4.2节所述,我们采用一种复合缩放方法来联合缩放主干网、BiFPN和box/类预测网络的深度/宽度/分辨率的所有维度。图6比较了我们的复合缩放和其他可以缩放分辨率/深度/宽度的单一维度的替代方法。尽管从同一基线检测器开始,我们的复合标度方法比其他方法获得更好的效率,这表明通过更好的平衡不同的架构维度联合标度的好处。(这句话我属实没怎么看懂,我的。。。。)
在这里插入图片描述

7.结论

本文系统地研究了有效目标检测的各种网络结构设计选择,提出了一种加权双向特征网络和一种定制的复合缩放方法,以提高目标检测的准确性和效率。基于这些优化,我们开发了一个新的检测器家族EfficientDet,它在广泛的资源限制范围内始终比现有技术获得更好的精度和效率。特别是,我们的EfficientDTEt-D7比现有最好的检测器具有更小的参数和触发器数量级,达到了最先进的精度。我们的效率在GPU上提高了3.2倍,在CPU上提高了8.1倍。

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页