论文学习笔记-EfficientNet_efficientb3-CSDN博客

本文链接：https://blog.csdn.net/sinat_37532065/article/details/94745841

『写在前面』

ImageNet分类SOTA，Transfer learning SOTA。提出一种放缩网络大小的方法，可以根据实际硬件条件进行调节，且该方法可以适用于当下几乎所有主流的分类模型中。

作者机构：Mingxing Tan等，Google Brain.

文章标题：《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

原文链接：https://arxiv.org/pdf/1905.11946

相关repo：https: //github.com/tensorflow/tpu/tree/master/models/official/efficientnet

5.1 在MobileNets和ResNes上试验复合缩放方法

5.2 EfficientNet在ImageNet上的表现

5.3 迁移学习表现

6 讨论

摘要

CNN通常是在固定资源下开发的，若资源充足，则可以考虑放大模型以得到更高的精度，反之如果再移动端上进行运算，则可能需要考虑压缩模型。本文重点在于研究如何通过合适的方式缩放模型以平衡网络深度、宽度和分辨率从而得到更佳的性能。

首先NAS出一个baseline模型（EfficientNet-B0），然后使用复合缩放的方法获得一系列模型，称之为EfficientNets。

EfficientNet-B7达到新的SOTA，而且模型大小减少了8.4倍（相比GPipe），速度提高了6.1倍。

在CIFAR-100,Flowers等数据集上迁移效果也是SOTA，同时参数量减少了一个数量级。

1 介绍

基于广泛应用的一些分类模型，我们可能会在实际中根据资源条件对模型进行一些放缩，比如：增减网络层数、放大/缩小输入图像尺寸、增减网络中间层滤波器个数等。这种做法尽管有效，但并不高效，并且需要一些经验。本文作者出发点就是为了找到一种可以扩展CNN的原则，以实现更高的准确率或效率。结论是：提出了一种复合缩放方法，平衡网络宽度、深度与输入分辨率是关键，而且简单地以恒定比例缩放即可。

复合缩放方法简述：

如果想要使用 $2^N$ 倍的计算资源，那么可以通过同时将网络深度乘以 $\alpha^N$ ，宽度乘以 $\beta^N$ ，图像大小乘以 $\gamma^N$ 来实现。其中，αβγ是通过在原始模型上通过small grid search确定的一组常数。

为什么复合缩放方法奏效？

直观来说，假如输入图像分辨率更大，也就需要更多层来扩大感受野，同时也需要更多的通道来捕捉更多的特征。反之亦然。

本文首先证明了提出的模型缩放方法在现有的CNN模型（MobileNets，ResNets等）上的有效性。因为模型扩展的有效性在很大程度上受baseline模型影响，所以又借助NAS开发了新的baseline，并使用提出的复合缩放方法进行扩展得到了一系列模型，统称为EfficientNets。最后结果是除了在ImageNet上达到了新的高度，还在广泛使用的8个公开迁移数据集上，5个达到SOTA。

2 相关工作

ConvNet 精度

部分CNNs对比
Model(Year)	ImageNet Acc	Parameters
GoogLeNet(2014)	74.8%	6.8M
SENet(2017)	82.7%	145M
GPipe(2018)	84.3%	557M

虽然更高的精度对于许多应用来说至关重要，但不能一直增加模型参数量，因为我们已经达到硬件存储器限制，因此进一步提高精度需要更高的效率。

ConvNet 效率

在提高CNN模型有效性方面，有如下几种代表性工作：

为了减轻模型的参数冗余，进行模型压缩；
为了适用于移动端设备上，手工设计高效CNN网络，如SqueezeNets，MobileNets，ShuffleNets等；
基于NAS技术搜索高效网络结构，比如MNasNet，MobileNet-v3等。

ConvNet 模型缩放

通常来说，可以从三个方面入手进行对模型进行放缩：

增减深度，如Res-18，ResNet-200；
增减通道数，如MobileNets中的multiplier；
增减输入图像分辨率，提高图像分辨率有助于更好地进行分类，毋庸置疑。

本文工作旨在以一种统一的方式综合上述三方面来进行高效地放缩CNN模型。

3 复合模型缩放

3.1 问题建模

一个典型的卷积层可以定义为这样的函数形式： $Y_i=F_i(X_i)$

而一个ConvNet可以表示为： $\mathit{N=F_k\odot \cdots \odot F_2\odot F_1(X_1)= \Theta _{1...k}F_j(X_1)}$

在现在流行的ConvNet中，大多都有数个stage，每个stage中的各层结构相仿，比如ResNet一般有5个stage，每个stage中除了第一个层负责下采样以外，其他层都是相同的卷积

因此，可以将这类ConvNet进一步表示为：

其中， $F_{i}^{L_i}$ 表示在第 $i$ 个stage中， $F_i$ 重复堆叠 $L_i$ 次。

一般的卷积网络设计，旨在找到最好的结构 $F_i$ ，比如Inception、Residual Block、SE Module等等。与其不同，本文旨在不改变模型结构 $F_i$ 的情况下，通过修改网络的深度、宽度、输入尺寸来进行模型放缩。

一句话概括，目标就是就是最大化任何给定资源约束情况的模型精度。

问题描述如下图所示：

3.2 维度缩放

上一节提出的问题，主要困难在于dwr三者相互依赖，并且在不同的资源约束下依赖关系也不同。出于这种影响，传统方法主要在其中某个维度做放缩来扩展ConvNet。

深度 Depth(d)

直观来说，越深的网络越利于捕捉丰富且复杂的特征，并且可更好地泛化到新任务上。

但由于梯度消失，训练难度也更大。通过跳跃连接、BN等操作，缓解了训练难的问题。

但网络精度并不会随着模型加深而不断提高，比如Res-1000和ResNet-101精度相当。

宽度 Width(w)

更宽的网络往往能够捕获更细粒度的特征，并且更容易训练。

然而极宽但浅的网络往往难以捕获高层特征。而且试验结果表明，随着w变大，准确度会迅速饱和。

分辨率 Resolution(r)

使用更高分辨率的输入图像，网络可以捕获更细粒度的特征。

分类模型从最早的224 * 224，到299 * 299，331 * 331，再到GPipe的480 * 480。检测模型一般使用更大的分辨率，比如600 * 600等。

越高的分辨率确实精度越高，但过高的话增益减小。

最后结论

作者使用EfficientNet-B0作为baseline，做了一系列试验，结果如下图所示。

见解1 - 扩展WHR三者任意其一都可以提高准确性，但对于越大的模型而言，精度的增益会降低。

3.3 复合缩放

见解2 - 为了追求更高的准确性和效率，在ConvNet扩展期间平衡网络宽度，深度和分辨率的所有维度至关重要。

复合缩放方法解释

通过一个复合系数 $\phi$ 来统一地缩放W/D/R：

其中，α/β/γ是通过small grid search确定的常数。

注意一点，标准卷积OP的FLOPS正比于d,w²,r².因此，通过上面公式对卷积模型进行缩放，会将整体的FLOPS放缩 $(\alpha \cdot \beta^2 \cdot \gamma^2)^\phi$ 倍。在本文中，令 $\alpha \cdot \beta^2 \cdot \gamma^2\approx 2$ ，因此通过调节 $\phi$ 可以将整体FLOPS放缩 $2^\phi$ 倍。

4 EfficientNet 网络结构

因为模型缩放不会改变baseline，所以良好的baseline模型很关键。为了更好的展示本文提出的方法的有效性，开发了新的mobile-size的模型，EfficientNet。

通过NAS，搜索合适的结构以同时优化准确和FLOPS。值得一提的是，基于与MnasNet相同的搜索空间，并使用 $ACC(m)\times [FLOPS(m)/T] ^ \omega$ 作为优化目标。其中， $ACC(m)$ 和 $FLOPS(m)$ 分别表示模型 $m$ 的准确率和运算量， $T$ 表示目标FLOPS， $\omega=0.07$ 是一个超参数来权衡Acc和FLOPS.