目标检测之------EfficientDet(BiFPN)可扩展且高效的目标检测

最新推荐文章于 2025-03-05 12:49:37 发布

只爱喝水

最新推荐文章于 2025-03-05 12:49:37 发布

阅读量1.2k

点赞数 24

文章标签：目标检测目标跟踪人工智能

本文链接：https://blog.csdn.net/qq_52191127/article/details/141310079

版权

创新点

本文受EfficientNet的启发，提出了一种用于目标检测模型的复合尺度变换方法，不仅可以同时对分辨率、网络深度、网络宽度三个维度进行统一缩放，而且可以对目标检测模型中的骨干网络、特征网络、分类/回归预测网络中的上述三个维度进行统一缩放。

此外，本文还提出了一种新的加权双向特征金字塔网络（bi-directional feature pyramid network，BiFPN），可以简单快速地进行多尺度特征融合。

基于上述两点，并入引入更好的backbone即EfficientNet，作者提出了一个新的检测模型系列 - EfficientDet，它在不同的计算资源限制下取得了比现有模型更好的效果。

论文详解

1.主干网络

Efficientdet采用Efficientnet作为主干特征提取网络。EfficientNet-B0对应Efficientdet-D0；EfficientNet-B1对应Efficientdet-D1；以此类推。

EfficientNet模型具有很独特的特点，这个特点是参考其它优秀神经网络设计出来的。经典的神经网络特点如下：
1、利用残差神经网络增大神经网络的深度，通过更深的神经网络实现特征提取。
2、改变每一层提取的特征层数，实现更多层的特征提取，得到更多的特征，提升宽度。
3、通过增大输入图片的分辨率也可以使得网络可以学习与表达的东西更加丰富，有利于提高精确度。

EfficientNet就是将这三个特点结合起来，通过一起缩放baseline模型（MobileNet中就通过缩放α实现缩放模型，不同的α有不同的模型精度，α=1时为baseline模型；ResNet其实也是有一个baseline模型，在baseline的基础上通过改变图片的深度实现不同的模型实现），同时调整深度、宽度、输入图片的分辨率完成一个优秀的网络设计。

在EfficientNet模型中，其使用一组固定的缩放系数统一缩放网络深度、宽度和分辨率。
假设想使用 2N倍的计算资源，我们可以简单的对网络深度扩大αN倍、宽度扩大βN 、图像尺寸扩大γN倍，这里的α,β,γ都是由原来的小模型上做微小的网格搜索决定的常量系数。
如图为EfficientNet的设计思路，从三个方面同时拓充网络的特性。

本博客以Efficientnet-B0和Efficientdet-D0为例，进行Efficientdet的解析。

Efficientnet-B0由1个Stem+16个大Blocks堆叠构成，16个大Blocks可以分为1、2、2、3、3、4、1个Block。Block的通用结构如下，其总体的设计思路是Inverted residuals结构和残差结构，在3x3或者5x5网络结构前利用1x1卷积升维，在3x3或者5x5网络结构后增加了一个关于通道的注意力机制，最后利用1x1卷积降维后增加一个大残差边。

2.BiFPN网络（加强特征提取）

构建BiFPN可以分为多步：
1、获得P3_in、P4_in、P5_in、P6_in、P7_in，通过主干特征提取网络，我们已经可以获得P3、P4、P5，还需要进行两次下采样获得P6、P7。
P3、P4、P5在经过1x1卷积调整通道数后，就可以作为P3_in、P4_in、P5_in了，在构建BiFPN的第一步，需要构建两个P4_in、P5_in（原版是这样设计的）。

2、在获得P3_in、P4_in_1、P4_in_2、P5_in_1、P5_in_2、P6_in、P7_in之后需要对P7_in进行上采样，上采样后与P6_in堆叠获得P6_td；之后对P6_td进行上采样，上采样后与P5_in_1进行堆叠获得P5_td；之后对P5_td进行上采样，上采样后与P4_in_1进行堆叠获得P4_td；之后对P4_td进行上采样，上采样后与P3_in进行堆叠获得P3_out。

3、在获得P3_out、P4_td、P4_in_2、P5_td、P5_in_2、P6_in、P6_td、P7_in之后，之后需要对P3_out进行下采样，下采样后与P4_td、P4_in_2堆叠获得P4_out；之后对P4_out进行下采样，下采样后与P5_td、P5_in_2进行堆叠获得P5_out；之后对P5_out进行下采样，下采样后与P6_in、P6_td进行堆叠获得P6_out；之后对P6_out进行下采样，下采样后与P7_in进行堆叠获得P7_out。

4、将获得的P3_out、P4_out、P5_out、P6_out、P7_out作为P3_in、P4_in、P5_in、P6_in、P7_in，重复2、3步骤进行堆叠即可，对于Effiicientdet B0来讲，还需要重复2次，需要注意P4_in_1和P4_in_2此时不需要分开了，P5也是。

通过第二部的重复运算，我们获得了P3_out, P4_out, P5_out, P6_out, P7_out。为了和普通特征层区分，我们称之为有效特征层，将这五个有效的特征层传输过ClassNet+BoxNet就可以获得预测结果了。

对于Efficientdet-B0来讲：
ClassNet采用3次64通道的卷积和1次num_anchors x num_classes的卷积，num_anchors指的是该特征层所拥有的先验框数量，num_classes指的是网络一共对多少类的目标进行检测。BoxNet采用3次64通道的卷积和1次num_anchors x 4的卷积，num_anchors指的是该特征层所拥有的先验框数量，4指的是先验框的调整情况。需要注意的是，每个特征层所用的ClassNet是同一个ClassNet；每个特征层所用的BoxNet是同一个BoxNet。

其中：

num_anchors x 4的卷积用于预测该特征层上每一个网格点上每一个先验框的变化情况。num_anchors x num_classes的卷积用于预测该特征层上每一个网格点上每一个预测框对应的种类。

先验框虽然可以代表一定的框的位置信息与框的大小信息，但是其是有限的，无法表示任意情况，因此还需要调整，Efficientdet利用3次64通道的卷积+num_anchors x 4的卷积的结果对先验框进行调整。

num_anchors x 4中的num_anchors表示了这个网格点所包含的先验框数量，其中的4表示了框的左上角xy轴，右下角xy的调整情况。

Efficientdet解码过程就是将对应的先验框的左上角和右下角进行位置的调整，调整完的结果就是预测框的位置了。

当然得到最终的预测结构后还要进行得分排序与非极大抑制筛选这一部分基本上是所有目标检测通用的部分。
1、取出每一类得分大于confidence_threshold的框和得分。
2、利用框的位置和得分进行非极大抑制。

5、在原图上进行绘制

通过第三步，我们可以获得预测框在原图上的位置，而且这些预测框都是经过筛选的。这些筛选后的框可以直接绘制在图片上，就可以获得结果了。

3.Cross-Scale Connections

传统的FPN受到单向信息流的限制，为了解决这个问题，PANet额外添加了一个自底向上的路径聚合网络，如图下图左边所示。NAS-FPN采用神经网络结构搜索来寻找更好的跨尺度特征网络拓扑结构，如图下图中间所示，但搜索代价极高，而搜索到的网络结构不规则，难以解释和修改。

本文提出了几种针对跨尺度连接的优化方法：

首先，删去那些只有一个输入的节点，因为如果一个节点只有一个输入没有特征融合的过程，那么它对旨在融合不同特征的网络的贡献就会比较小。
其次，如果原始输入和输出节点处于同一层级，增加一条额外的输入路径，从而在不增加太多计算成本的情况下融合更多的特征。
最后，与PANet只有一个自上而下和一个自下而上的路径不同，我们将每个双向路径视为一个特征网络层，并重复多次，从而实现更高级的特征融合。

基于上述三点，本文提出了双向特征金字塔网络，如上图右边所示。

4.Weighted Feature Fusion

当融合不同分辨率的特征时，常见的方法是将它们的分辨率调整为相等大小，然后进行相加。之前的方法都平等的对待不同的输入特征，但作者观察到，由于不同的特征具有不同的分辨率，通常它们对于输出的贡献也不相同。因此本文提出对于每个输入添加一个额外的权重，让网络来学习每个输入特征的重要性。

作者仿照softmax-based融合方法提出了fast normalized fusion：\(O= {\textstyle \sum_{i}}\frac{w_{i}}{\epsilon + {\textstyle \sum_{j}}w_{j} } \cdot I_{i}\)，其中在每个 \(w_{i}\) 后添加ReLU激活函数保证了 \(w_{i}\ge 0\)，\(\epsilon=0.0001\) 用来避免数值不稳定。基于双向跨尺度连接和快速归一化融合，得到了最终的加权双向特征金字塔网络。