EfficientDet: Scalable and Efficient Object Detection翻译(CVPR2020)

EfficientDet是一种新的目标检测器,结合了加权双向特征金字塔网络(BiFPN)和复合缩放方法,能在各种资源限制下提供更好的效率和精度。BiFPN解决了多尺度特征融合的问题,而复合缩放同时调整主干、特征网络和预测网络的分辨率、深度和宽度。EfficientDet-D6在COCO数据集上实现了50.9 mAP,比现有技术更高效,参数少4倍,FLOP减少13倍。
摘要由CSDN通过智能技术生成

EfficientDet:可扩展且高效的目标检测

摘要
在计算机视觉中,模型效率变得越来越重要。在本文中,我们系统地研究了用于目标检测的神经网络体系结构设计选择,并提出了一些提高效率的关键优化措施。首先,我们提出了一种加权双向特征金字塔网络(BiFPN),该网络可以轻松快速地进行多尺度特征融合。其次,我们提出了一种复合缩放方法,该方法可以同时对所有主干,特征网络和框/类预测网络的分辨率,深度和宽度进行统一缩放。基于这些优化,我们开发了一个新的对象检测器系列,称为EfficientDet,在广泛的资源限制条件下,其效率始终比现有技术好得多。特别是,通过单模型和单比例尺,我们的EfficientDet-D6在具有52M参数和229BFLOPs1的COCO数据集上实现了最先进的50.9 mAP,体积缩小了4倍,使用的FLOP减少了13倍,但精度更高(+ 0.2% mAP)。
1.介绍
近年来,在更精确的物体检测方面取得了巨大的进展;同时,最先进的物体探测器也变得越来越昂贵。 例如,最新的基于AmoebaNet的NASFPN检测器[42]需要167M参数和3045BFLOPs(比Retina Net[21]多30倍)才能达到最先进的精度。大的模型尺寸和昂贵的计算成本阻止了它们在许多实际应用中的部署,如机器人和自动驾驶汽车,在那里模型大小和延迟受到高度限制。考虑到这些现实世界的资源约束,模型效率对于目标检测越来越重要。以前有许多旨在开发更有效的检测器体系结构的工作,例如一级[24、30、31、21]和无锚检测器[18、41、37],或压缩现有模型[25、26]。尽管这些方法往往会达到更高的效率,但它们通常会牺牲准确性。此外,以往的大多数工作只关注特定或小范围的资源需求,但从移动设备到数据中心的各种实际应用程序往往需求不同,经常需要不同的资源约束。
一个自然的问题是:是否有可能在广泛的资源约束(例如从3B到300B FLOP)中构建具有更高准确性和更高效率的可扩展检测架构?本文旨在通过系统地研究探测器结构的各种设计选择来解决这一问题。基于一阶段检测器范例,我们检查了主干,特征融合和类/盒网络的设计选择,并确定了两个主要挑战:
挑战1:高效的多尺度特征融合–自[20]中引入以来,FPN已被广泛应用于多尺度特征融合。 最近,Panet[23]、NAS-FPN[8]和其他研究[17、15、39]开发了更多的跨尺度特征融合网络结构。在融合不同的输入特征时,大多数以前的工作只是对它们进行了总结而没有区别。 但是,由于这些不同的输入特征的分辨率不同,因此我们观察到它们通常对融合输出特征的贡献不均。为解决此问题,我们提出了一个简单而高效的加权双向特征金字塔网络(BiFPN),该网络引入了可学习的权重以了解不同输入特征的重要性,同时反复应用自上而下和自下而上的多尺度特征融合。
挑战2:模型缩放–虽然先前的工作主要依靠更大的骨干网[21、32、31、8]或更大的输入图像尺寸[11、42]来获得更高的准确性,但我们注意到,当同时考虑准确性和效率时,放大特征网络和框/类预测网络在获取图像时也至关重要。受近期工作[36]的启发,我们提出了一种用于对象检测器的复合缩放方法,该方法可联合扩展所有骨干网,特征网络,框/类预测网络的分辨率/深度/宽度。
最后,我们还观察到,最近引入的EfficientNets [36]比以前的常用骨干网(例如ResNets [12],ResNeXt [38]和AmoebaNet [29])具有更高的效率。通过将EfficientNet主干网与我们提出的BiFPN和复合缩放相结合,我们开发了一个名为EfficientDet的新对象检测器系列,与以前的对象检测器相比,它始终以更少的参数和FLOP达到更高的精度。图1和图4显示了COCO数据集[22]的性能比较。在类似的精度约束下,我们的EfficientDet使用的FLOP比YOLOv3 [31]少28倍,比RetinaNet [21]少30倍,而最近的基于ResNet的NAS-FPN [8]少19倍。特别是,通过单模型和单一测试时间尺度,我们的EfficientDet-D6达到了最新的50.9 mAP,具有52M参数和229B FLOP,体积缩小了4倍,使用的FLOP减少了13倍,但仍比以前最好模型[42]最佳精度高。我们的EfficientDet在GPU / CPU上的速度也比以前的检测器快3到8倍。
在这里插入图片描述
通过简单的修改,我们还证明了我们的单模型单尺度EfficientDet在Pascal VOC 2012语义分段上具有18BFLOP时可达到81.74%mIOU精度,比DeepLabV3 + [4]高出1.7%,而FLOP则少9.8倍。
2.相关工作

  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值