EfficientDet

最新推荐文章于 2022-01-14 19:56:00 发布

dekiang

最新推荐文章于 2022-01-14 19:56:00 发布

阅读量536

点赞数 1

分类专栏： Object Detection

本文链接：https://blog.csdn.net/weixin_41560402/article/details/109401752

版权

55 篇文章 17 订阅

订阅专栏

1. 贡献

提出了简单且高效的多尺度特征融合方法：双向特征金字塔网络（bi-directional feature pyramid network，BiFPN）。BiFPN通过引入可学习的权重来衡量不同输入特征的重要程度，并重复使用top-down和bottom-up方式来融合多尺度特征。
对目标检测器的各个部分（如backbone, feature network, box/class prediction network）的分辨率、深度、宽度进行了统一缩放，得到多个具有不同准确度和速度的目标检测器EfficientDet-D0~D7。

现有的多尺度特征融合方法主要有以下几种：

(a) FPN introduces a top-down pathway to fuse multi-scale features from level 3 to 7 (P3 - P7);
(b) PANet adds an additional bottom-up pathway on top of FPN;
( $c$ ) NAS-FPN uses neural architecture search to find an irregular feature network topology and then repeatedly apply the same block;

这些方法在进行多尺度特征融合时，对不同输入特征采用直接相加的操作，并未考虑不同输入特征对输出的重要程度（直接相加可认为重要程度相等）。

假设不同尺度的输入特征为 $\vec P^{in}=(P_{l_1}^{in},P_{l_2}^{in},...)$ ，其中 $P_{l_i}^{in}$ 表示第 $l_i$ 层的特征，多尺度特征融合要寻找合适的函数 $f ()$ ，使得 $\vec P^{out}=f(\vec P^{in})$ 。
以FPN为例，其输入特征为 $\vec P^{in}=(P_3^{in},...,P_7^{in})$ ，则输出特征为

但是从分辨率或者不同层级的反向传播路径可以看出，不同层级的特征对输出的重要程度应该是不同的，所以BiFPN为不同输入特征设置了可学习的权重。

以EfficientNet为backbone network，以由多个BiFPN layer重复连接而成的BiFPN为feature network，以不同层级共享参数的class/box prediction net为detection head。
不同检测器的配置如下表所示：

PANet在FPN的基础上再添加bottom-up pathway，取得比FPN更好的效果；虽然NAS-FPN使用网络结构搜索的方式得到比PANet更好的效果，但其搜索出的拓扑结构缺乏解释性，所以本文选择PANet为基础模块，并加以修改。

3种特征加权融合方法：Unbounded fusion，Softmax-based fusion，Fast normalized fusion

Unbounded fusion：
$O=\sum_iw_iI_i$ 其中， $w_i$ 表示第 $i$ 个输入特征 $I_i$ 所对应的可学习权重， $w_i$ 可以是标量（per-feature）、向量（per-channel）、矩阵（per-pixel）。作者发现这3个类型的 $w_i$ 的效果很接近，但是标量型 $w_i$ 的计算量较小，所以将 $w_i$ 确定为标量。但由于标量是无界的，为使模型比较稳定，应该对 $w_i$ 进行归一化。
Softmax-based fusion：
采用softmax归一化至[0,1]，但是softmax在GPU中的计算速度比较慢，所以提出第3种方法：快速归一化。
Fast normalized fusion：

实验发现，Fast normalized fusion与Softmax-based fusion具有相近的准确度，但Fast normalized fusion比Softmax-based fusion快30%。
以 $P_6$ 为例，采用Fast normalized fusion进行多尺度特征融合的公式为：

在目标检测器中，使用更深的backbone（VGG $\to$ ResNet $\to$ ResNeXt）或提高输入图像的分辨率（ $512\times512\to1536\times1536$ ）均可显著提高目标检测性能，但目前很多研究只是单独增大某一方面。
目标检测框架包括backbone, feature network, box/class prediction network，这些子网络又可以在分辨率、深度、宽度进行缩放，所以本文研究了统一对各个方面进行缩放的效果。

Backbone network：直接选取EfficientNet-B0~B6，EfficientNet的各个版本具有不同的网络深度和网络宽度
BiFPN network：BiFPN的深度指BiFPN layer的个数，记为 $D_{bi\ fpn}$ ，而BiFPN的宽度指BiFPN layer中特征的通道数，记为 $W_{bi\ fpn}$
Box/class prediction network：令 $W_{pred}=W_{bi\ fpn}$ ，且
Input image resolution ：最大下采样率为128，所以输入图像分辨率应该是128的倍数