Efficientdet译文

最新推荐文章于 2023-04-13 23:43:32 发布

王吉吉丫

最新推荐文章于 2023-04-13 23:43:32 发布

阅读量514

点赞数

本文链接：https://blog.csdn.net/weixin_42410915/article/details/111603919

版权

原论文

摘要

模型效率在计算机视觉中越来越重要。本文我们系统地研究了目标检测的神经网络框架，并提出了几个有利于提高模型效率的关键的优化点。首先，我们提出了一个加权双向特征金字塔网络（BiFPN），可以又快又简单地实现多特征融合；其次我们提出了一种复合缩放方法，可以同时缩放所有主干网络、特征网络和框预测/类别预测网络的分辨率、深度和宽度。基于这些优化以及更好的主干网络，我们开发了一个新的目标检测网络系列，EfficientDet，虽然现如今资源有限（CPU、GPU处理速度、数据集缺失等吧，自我理解，有误请更正），但性能比其他网络要好。特别对于一阶段网络和单个尺寸，我们EfficientDet-D7在COCO测试集的精度最高，AP为55.1%，参数量为77M，FLOPs为410B，参数量比之前的检测网络小了4-9倍，且FLOPs少了13-42倍。

引言

近几年，目标检测的精度越来越高；同时，性能最好的检测器花费也越来越大（个人理解应该是计算量大什么的吧）。比如，最新的基于NAS-FPN的AmoebaNet检测器的参数量为167M，FLOPs为3045B（比RetinaNet高30倍），才能达到最好的检测效果。大规模的模型尺寸以及昂贵的计算成本是使这些模型运用在实际生活中的一大阻力，例如机器人，无人汽车等。考虑到这些现实因素的限制，模型效率对于目标检测越来越重要。

现已有很多有关提高检测效率的研究，比如一阶段和Anchor-free检测器或压缩模型。尽管这些方法可以达到更好的效率，但都损失了检测精度。另外，以前大多数研究工作仅仅关注某个特定的或者范围较小的应用领域，但真实世界中有太多的应用领域，从移动设备到数据中心，往往会需要不同的资源。

一个很现实的问题：在广泛的资源限制下（比如从3B到300B的FLOPs），能否搭建一个精度高、效率高的监测模型？本文通过系统地研究不同检测模型结构来解决这个问题。基于单阶段检测器，我们研究了主干网络、特征融合以及类/框网络，主要由解决两个难题。

Challenge 1：高效的多尺度特征融合。借鉴文献[23]，FPN已经广泛应用到多尺度融合中。最近，PANet，NAS-FPN和其他研究成果开发了更多用于跨尺度特征融合的网络架构。当融合不同输入特征时，先前很多研究工作只是简单的将这些特征相加，并没有考虑区分问题；可是，因为这些不同特征的分辨率不同，我们发现不同分辨率的特征对已融合的输出特征的贡献是不同的，为了解决这一问题，我们提出了一种简单高效的加权双向特征金字塔网络（BiFPN），通过引入可学习权重学习不同输入特征的重要程度，然后重复应用到自顶向下和自下而上的多特征融合。

Challenge 2：模型缩放。先前的研究工作主要依赖更大的主干网络或者输入更大尺寸的图像，从而获得更高的检测精度。我们发现扩大特征网络和框/类预测网络对网络精度和效率也非常重要。借鉴文献[39]，我们提出了用于目标检测的复合缩放方法，可以同时缩放所有主干网络、特征网络以及框/类预测网络的分辨率、深度和宽度。

最后，我们还发现EfficientNets比之前常用的主干网络的效率更高。将EfficientNet主干网络和本文提出的BiFPN和复合缩放结合起来，开发了一系列新的目标检测器，命名为EfficientDet，比之前的目标检测器的参数和FLOPs更少，但精度更高。在COCO数据集上的训练比较结果见图1和图4。在相似精度的限制下，本文EfficientDet的FLOPs比YOLOv3小28倍，比RetinaNet小30倍，比最近提出的基于NAS-FPN的ResNet小19倍。特别地，在单一模型和单一测试时间尺度的情况下，EfficientDet-D7达到了目前最高的精度：AP=55.1%，参数为77M，FLOPs为410B，比之前最佳的检测器高出4个百分比的AP，而且参数量小2,7倍，FLOPs小7.4倍。EfficientDet在GPU或CPU撒花姑娘的运行速度也比之前的检测器快4倍到11倍。

通过简单的调整，我们还证明了本文单阶段单尺寸的EfficientDet在Pascal VOC 2012语义分割上实现了FLOPs=18B，mIOU=81.74%的效率。比DeepLabV3+精度高出1.7%，FLOPs小9.8倍。

2 相关工作

单阶段检测器：现有的目标检测器主要是根据是否有生成ROI（region-of-interest，感兴趣区域）这一步骤分为二阶段（有）和一阶段（无）检测器。二阶段检测器更灵活、更准确；但通过于先生称的anchor，单阶段检测器更简单、更高效。最近，单阶段检测器因其优点备受关注。本文，我们主要研究一阶段检测器，通过优化的网络架构实现更高的效率和精度。

Model Scaling：为了获得更高的精度，通常使用更大的主干网络（比如，从mobile-size模型和ResNet增大到ResNeXt和AmoebaNet）或者增大输出图像尺寸（比