论文阅读【EfficientDet】

最新推荐文章于 2024-05-22 16:55:58 发布

Rock_Huang~

最新推荐文章于 2024-05-22 16:55:58 发布

阅读量5.5k

点赞数 3

分类专栏：论文阅读

本文链接：https://blog.csdn.net/weixin_38632246/article/details/103400788

版权

论文阅读专栏收录该内容

9 篇文章 6 订阅

订阅专栏

文章目录

前言

EfficientDet结构
论文：https://arxiv.org/abs/1911.09070
官方代码：https://github.com/google/automl/tree/master/efficientdet
在这里插入图片描述
先吐槽一下CV方面论文的套路，新出一篇paper：
未看paper前：
被测试结果 state-of -art 吸引，心中默默感叹还是这篇厉害喽，，，

看完后：
idea不错，改进还是有的，不过是在老方法上，看看对比网络的评价，咦！怎么好几个最优网络都没有呀，比不过的我们还是不比了，我们用下擅长的方面对比下喽(没有对比，FCOS，CenterNet，EfficientDet BFLOPs巨大)。

创新点

EfficientDet改进主要是借鉴了RetinaNet网络，是一种Anchor-base的one stage目标检测方法。

参考：RetinaNet网络结构
在这里插入图片描述
是不是感觉很像，EfficientDet网络将ResNet替换成连续的卷积降采样层，然后将FPN替换成BIFPN（就是改变原有FPN的连接关系，参考 FPN详解），最后将feature map 连接一个分类子网络，一个box回归网络。
总结如下：

提出BiFPN子网络结构，双向的多尺度特征融合网络。
提出一种扩展网络的方法，就是扩展backbone，BiFPN，box net 和class net，具体包括网络层数，输入尺寸，深度。
由上面的1,2点，结合得到了EfficientDet一系列网络。

网络结构

BiFPN

在这里插入图片描述
这张图中（a）p3-p7表示卷积层由浅-------》深，每层卷积后输出的特征图，当然啦，尺寸一次由大------》小， p7层的输出特征图最小，先上采样后与P6输出特征图融合，再卷积，这里横向卷积2次，向下传递双通道方向相同。

双向传递的2种方式：

自顶向下

采用上采样（upsampling）进行，而横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合（merge）。在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积，目的是消除上采样的混叠效应（aliasing effect）。并假设生成的feature map结果是P2，P3，P4，P5，和原来自底向上的卷积结果C2，C3，C4，C5一一对应。

自底向上

网络的前向过程。在前向过程中，feature map的大小在经过某些层后会改变，而在经过其他一些层(bn,relu等)的时候不会改变，作者将不改变feature map大小的层归为一个stage，因此每次抽取的特征都是每个stage的最后一个层输出，这样就能构成特征金字塔。
看完上面的2种传递方式，（b----e）依次类推。。。。。

主要看下图（F）：
在这里插入图片描述
上图中 $P_{6in}=P_{6}$ , 结合下面的公式，此处的输出是中间一层的输出 $P6_{out1}$ 。

$P6_{out2}$ 采用下面公式：

在这里插入图片描述
$P6_{td}$ 就是加了权重的 $P6_{out1}$ , 此处的 $P6_{out}$ 是最后层的输出 $P6_{out2}$ .

BIFPN特征图权重

上面最后的图出现的W1，W2，指的是特征图对应得一组权重（可以是标量，向量，作者没有提怎么来的，需要看源码） $I_{i}$ 代表是FPN的特征图值。

作者说传统的算法对网络最后的输出向量采用Softmax加权得到：
在这里插入图片描述
但这里指数运算比较耗费资源和时间，换个简单的快速规范化融合方法（Fast normalized fusion）

${\epsilon }=0.0001$ 是为了避免分母不为0.

EfficientDet Architecture

EfficientDet 系列网络可以用下面2个图放一起总结， $D_{0}-D_{7}$ 一共8个网络，定义个 $\phi$ 表示第几个网络的序号， $\phi=0$ 就是 $D_{0}$ , 依次类推。。。

input：首先input可以调整，只要是 $512+\phi*128$
EfficientNet Backbone: 这个是固定的，作者说了这个是ImageNet上预训练的模型，不方便改
BiFPN: 这个子网络可以改，网络的层数为 $\phi+2$ ，通道数是 $64*1.35^{\phi}$ ，这里 $64*1.35^{1}=86$ 比88差了一点，好像每层都差了一点点耶
Box/class prediction network ：这两个子网络的层数相等为 $3+[\phi/3]向下取整$
然后就没了，loss的定义采用focal Loss，最后也是Anchor-base的一种one stage目标检测方法

在这里插入图片描述

实验结果

EfficientDet-D7在MS COCO数据集上的MAP表现确实很惊人，达到了51.0，但是单次浮点计算量千亿次为326BFLOPS，（BFLOPS，即Billion FLOPS，十亿FLOPS，参考 FLOPS计算）

EfficientDet- $D_{0}$ 与YOLO v3 相比，同样差不多的MAP，EfficientDet- $D_{0}$ 的BFLOPS是2.5， YOLO v3是71，相差28倍。下图的X是倍数的意思，以EfficientDet- $D_{0}$ 的所有参数为基准的倍率。
在这里插入图片描述
后面作者列出了几张关于以下参数的对比实验，不太重要，在此不一一列出。

1.参数量，GPU消耗，
2.powerful backbone and BiFPN
3.Softmax VS fast normalized feature fusion

总结：
1.从实际应用价值考虑，EfficientDet D0-D4比YOLO v3 的MAP好一点，速度论文没写看不出来。
2，现在流行anchor-free，anchor-base的方法对遮挡问题的解决效果不好。
3. EfficientDet 的训练时间肯定不如轻量级的 fcos-mobilenet和yolo-tiny模型。

Rock_Huang~

关注

3
点赞
踩
26

收藏

觉得还不错? 一键收藏
15
评论
论文阅读【EfficientDet】

文章目录前言创新点网络结构BiFPN双向传递的2种方式：自顶向下自底向上BIFPN特征图权重EfficientDet Architecture实验结果前言EfficientDet结构先吐槽一下CV方面论文的套路，新出一篇paper：未看paper前：被测试结果 state-of -art 吸引，心中默默感叹还是这篇厉害喽，，，看完后：idea不错，改进还是有的，不过是在老方法上，看...
复制链接

扫一扫