翻译加自己概括,有问题的地方请指正
不清楚:
论文: Focal loss for dense object detection 似乎是focalloss的开始,有空看看
ResNetXt网络结构与Resnet的共同点与不通点
计算机视觉中模型的效率越发重要,本文系统地学习基于检测的神经网络架构选择,并提出几个关键优化来提升效率。首先是提出了一种加权双向FPN(BiFPN),它能够快速简单地进行多尺度特征融合。第二,我们提出了一种复合标度方法,该方法可以同时对所有主干网络、特征网络和盒类预测网络的分辨率、深度和宽度进行统一标度。基于这些优化与更好的骨干网络,开发了EfficientDet:物体检测系列网络。在有限的资源限制下相比先前网络更高效。EfficientDet-D7达到SOTA。
介绍
近年模型为了追求效果变得越来越大。实际部署会受到算力限制,例如机器人与自动驾驶领域,对模型尺寸与推理耗时有较高要求。
因此有不少工作专注于更高效的模型检测结构,例如单阶段(SSD, YOLOV2,V3, Focal loss)anchor-free检测器(paired keypoints,FCOS)或是压缩现有模型。这些提速方法都会牺牲准确率。
为了解决运行效率与效果问题,建立了一个可变体量的检测结构。对于单阶段检测器,进行了各种设计选择实验,从backbone,特征融合,头方法以及另外两个主要挑战:
挑战1:高效的多尺度融合
FPN被广泛用于多尺度融合,PANet,NAS-FPN等其他研究也开发了一些交叉尺度特征融合的方法。一般尺度融合使用SUM,但这些特征对于输出的影响一般来说是不相等的(之前做输出特征可视化直方图可知每层输出数据的分布不同)为了解决这个问题,团队提出了加权双向特征金字塔(BiFPN)这种方法有可训练权值来学习不同输入特征的重要程度。在自上而下和自下而上的多尺度融合中都有使用
挑战2:model scaling
先前的工作主要依赖于大型骨干网络(backbone)或者大图片输入来取得更高的准确率。需要同时考虑提出了一种复合尺度方法来实现目标探测器的尺度变换,该方法可以对所有主干网络、特征网络、box预测网络的分辨率/深度/宽度进行尺度变换。
EfficientNet运行效率更高,结合EfficientNet的骨干网络,BiFPN与混合尺度变换。作者开发了一系列网络,取得了高运行效率与高表现得效果、