efficientnet翻译加自己的理解

最新推荐文章于 2024-05-12 20:47:49 发布

spark-aixin

最新推荐文章于 2024-05-12 20:47:49 发布

阅读量940

点赞数

本文链接：https://blog.csdn.net/weixin_42630613/article/details/107841629

版权

文章目录

摘要
介绍
相关工作
compound model scaling
网络结构

摘要

卷积神经网络(ConvNets)通常是在固定的资源预算下开发的，如果有更多的资源可用，就会扩大规模以获得更好的准确性。在本文中，我们系统地研究了模型缩放，并认为仔细地平衡网络的深度、宽度和分辨率可以得到更好的性能。在此基础上，我们提出了一种新的尺度划分方法，即利用简单而高效的复合系数来均匀地划分深度/宽度/分辨率各维度。我们证明了该方法在放大MobileNets 和 ResNet方面的有效性。更进一步，我们使用神经结构搜索neural architecture search 来设计一个新的基线网络，并将其扩展以获得一系列模型，称为EfficientNets ，其精度和效率都比以前的ConvNets好得多。特别是，我们的efficientnet - b7在ImageNet上实现了最先进的84.3%的top-1 accurac，同时比现有最好的ConvNet小8.4倍，推理速度快6.1倍。我们的efficiententnets在cifar - 100（91.7%)、Flowers(98.8%)和其他3个迁移学习数据集上迁移效果也很好，达到了最先进的精度，参数少了一个数量级。源代码是在https:/ / github.com/tensorflow/tpu/tree/主/模型/官方/高效网络

介绍

1尺度可变ConvNets被广泛用于获得更好的精度。例如，ResNet (He et al.， 2016)可以通过使用更多层从ResNet-18扩展到ResNet-200;最近，GPipe (Huang et al.， 2018)通过扩大基线模型4次，获得了84.3%的ImageNet top-1精度。u 扩展ConyNets的过程从来没有被很好地理解过，目前有很多方法可以做到这一点。最常见的方法是通过深度扩大ConvNets的规模(He et al…)。或宽度(Zagoruyko & Komodakis. 2016)。另一种不太常见但越来越流行的方法是通过图像分辨率放大模型(Huang et al.， 2018)。在以往的工作中，通常只按三个维度中的一个来衡量——深度。宽度和图像大小。尽管可以任意扩展两个或三个维度，但任意扩展需要繁琐的手工调优，而且常常无法达到最佳的精度和效率。
2在本文中，我们想研究和重新思考扩大ConvNets的过程。特别地，我们调查中心问题:是否有一个原则的方法来扩大ConvNets，以达到更好的准确性和效率?我们的实证研究表明，平衡网络宽度/深度/分辨率的所有维度是至关重要的，令人惊讶的是，这种平衡可以通过简单的固定比例缩放来实现。在此基础上，我们提出了一种简单而有效的复合标度方法（compound scaling method）. ，有别于传统的任意标度方法。我们的方法均匀地缩放网络的宽度、深度以及一组固定尺度系数的分辨率。例如，如果我们想使用2N倍的计算资源，那么我们可以简单地将网络深度增加a的N次方，宽度增加B的N次方，图像大小增加γ的N次方，其中a, B，γ是由在原始小模型上进行小网格搜索所确定的常系数。图2说明了我们的缩放方法和传统方法之间的区别。
在这里插入图片描述

图2。模型扩展。(a)是一个基线网例;(b)-(d)是常规缩放，只增加网络宽度、深度或分辨率的一维，(e)是我们提出的复合缩放方法，以固定的比例均匀缩放三个维度

3直观上，复合尺度法是有意义的，因为如果输入图像更大，那么网络需要更多的层次来增加接受野，需要更多的通道来捕捉更细粒度的模式。事实上，之前的理论(Raghu et al.， 2017;Lu et al.， 2018)和实证结果(Zagoruyko & Komodakis, 2016)均表明网络宽度和深度之间存在一定的关系，但据我们所知，我们是第一个对网络宽度、深度和分辨率三个维度之间的关系进行实证量化的人。
4我们证明了我们的缩放方法在现存的MobileNets （Howard等人，2017年;桑德勒等人，2018年）和ResNet (He et al. 2016)上工作得很好。值得注意的是，模型缩放的有效性在很大程度上依赖于基线网络:为了更进一步，我们使用神经结构搜索(Zoph & Le 2017: Tan et al. 2019)来开发一个新的基线网络，并将其扩展以获得一系列模型，称为EfficientNets 。图1总结了ImageNet的性能。我们的效率网明显优于其他ConvNets。特别是，我们的efficient - net - b7超过了现有的最佳GPipe精度(Huang等。）但是减少了8.4倍的参数，推理速度提高了6.1倍。与广泛使用的ResNet-50相比(He等…我们的EffcientNet-B4将top-1 accurac从76.3%提高到83.0%(+6.7%)，类似的FLOPs下。除了ImageNet, efficient net也有很好的迁移能力，在8个广泛使用的数据集中的5个上实现了最新的精确度，同时减少了比现有ConvNets大21倍的参数。

compound model scaling

在这一节中。我们将会构想出标度问题，研究不同的方法，并提出我们新的标度方法。
1问题构想
在这里插入图片描述
1convnet N可以用一列组合层来表示
ConvNet层通常分为多个阶段，除了第一阶段下采样外，其余通常分为多个阶段，每个阶段的所有层采用相同的架构
FiLi表示第i阶段Fi层重复Li次
上图(a)展示了一个典型的卷积网络，其中空间维度是逐渐缩小的，而通道维度是逐层扩展的，例如，从初始输入形状224;224;3开始i到最终输出形状7;7;512
2提升常规卷积网络设计，主要关注寻找最佳的层架构Fi，模型缩放试图扩展网络的长度(L)、宽度©和/或分辨率(H. W)，而不改变在基线网络中预定义的Fi。通过确定Fi，模型缩放简化了新资源约束下的设计问题，但仍有很大的设计空间去探索不同的Li、Ci、Hi、W;每一层。为了进一步缩小设计空间，我们限制了所有的lavers必须以恒定的比例均匀缩放。我们的目标是为任何给定的资源约束最大化模型的准确性。可表示为一个优化问题:
在这里插入图片描述
2缩放维度
1问题2的主要难点在于最优d、w、r相互依赖，且在不同资源约束下取值变化。由于这一困难，传统的方法大多在这些维度中缩放ConvNets:
2深度(d):最常用的方法是缩放网络深度被许多ConvNets使用（He等人，2016; Huang等人，2017;Szegedy等，2015;2016)。直觉上，更深入的卷积网络可以捕捉更丰富、更复杂的特征，并在新的任务上很好地推广。然而，由于梯度消失，深度网络的训练也更加困难（扎戈鲁伊科和科莫达基斯，2016年）。虽然一些技术，如跳跃连接(He et al.， 2016)和批处理归一化(loffe & Szegedy, 2015)，缓解了训练问题，非常深网络的精度增益降低:例如。ResNet-1000和ResNet-101有相似的精确度，尽管它有更多的层。图3(中间)显示了我们对不同深度系数d的基线模型缩放的实证研究，进一步表明非常深卷积网的精度回报递减。
图3。将不同网络宽度(u)、深度(d)和分辨率®系数的基线模型进行缩放。网络越大，宽度、深度或分辨率越大，精度越高，但精度增益达到80%后很快饱和，说明了一维尺度缩放的局限性。基线网络如表1所示。

3宽度(w):缩放网宽是常用的小型模型（霍华德等人，2017年;桑德勒等人，2018年;Tan等人，2019） 2.如中讨论的（扎戈尔 · 科和科modakis。2016年)，更广的网络往往能够捕捉到更细粒度的特征，也更容易训练。然而。极宽但浅的网络在捕获更高层次的特征时往往有困难。我们的经验结果在图3(左)显示，当网络变得更宽，更大的w时，准确率很快饱和。
4分辨率®:有了更高分辨率的输入图像，ConvNets可以潜在地捕获更细粒度的模式。从早期ConvNets的224x224开始，现代的ConvNets倾向于使用299x299 (Szegedy等。或331x331 (Zoph等，2018)，以提高准确性。最近，GPipe (Huang等。(2018)实现了最先进的ImageNet精度，分辨率为480x480。更高分辨率，如600x600，也被广泛应用于生物检测ConvNets中(He et al.， 2017;Lin等，2017)。图3(右)显示了网络分辨率缩放的结果，更高的分辨率确实提高了精度，但是对于非常高的分辨率，精度增益会降低(r = 1.0表示分辨率为224x224, r= 2.5表示分辨率为560x560)。以上分析使我们得出第一个结论:
5观测1-网络宽度、深度或分辨率的任何维度都可以提高精度，但对于较大的模型，精度增益会降低。
3compound scaling
1我们从经验上观察到，不同的尺度不是独立的。直观地说，对于分辨率较高的图像，我们应该增加网络深度，这样，更大的感受野可以帮助捕获更大图像中包含更多像素的相似特征。相应的，当分辨率较高时，也应该增加网络宽度。为了在高分辨率图像中捕捉更多的细粒度模式和更多的像素。这些直觉告诉我们，我们需要协调和平衡不同的尺度，而不是传统的一维尺度。在这里插入图片描述
图4。针对不同的基线网络缩放网络宽度。线中的每个点表示一个不同宽度的模型。系数(u)。所有基线网络见表1。第一个基线网络(d=1.0, r=1.0)有18个卷积lavers，分辨率为224x224。而最后一个基线(d=2.0, r=1.3)有36个层，分辨率为299x299。
2为了验证我们的直觉，我们比较了不同网络深度和分辨率下的宽度缩放，如图所示4. 如果我们只缩放网络宽度w而不改变深度(d=1.0)和分辨率(r=1.0)，精度会很快饱和。具有更深的(d=2.0)和更高的分辨率(r=2.0)。宽度缩放在相同的FLOPs代价下达到更好的精度。这些结果使我们得出第二个观察结果:
3观测2为了追求更高的精度和效率，在进行对convnet尺度变换时，关键是要平衡网宽、网深和网分辨率的各个维度。
4事实上，之前的一些工作(Zoph et al.， 2018;Real等人，2019)已经尝试过任意平衡网络宽度和深度，但都需要繁琐的手动调整。
5本文提出了一种新的复合标度方法，利用复合系数原则地均匀标度网络的宽度、深度和分辨率:

在这里插入图片描述

网络结构

由于模型缩放不会改变基线网络中的laver算子，因此拥有一个良好的基线网络也是至关重要的。我们将使用现有的ConyNets来评估我们的标度方法，但为了更好地证明我们的标度方法的有效性。我们还开发了一种新的手机尺寸基准，叫做“EfficientNet ”。
受到(Tan et al.， 2019)的启发，我们通过利用多目标神经结构搜索来优化我们的基线网络，这种搜索既优化了精确性，也优化了FLOPs。具体来说,我们使用相同的搜索空间(Tan et al ., 2019),并使用ACC (m) xIFLOPS (m) / Tw作为优化目标,ACC (m)和FLOPs(m)表示m的准确性和FLOPs。T是目标FLOPs和w = -0.07是hyperparameter控制准确性和FLOPs之间的权衡。不像(Tan et al.， 2019;Cai等人，2019)，这里我们优化的是FLOPs而不是延迟，因为我们不针对任何特定的硬件设备。我们的搜索产生了一个高效的网络，我们将其命名为efficient net - bo。由于我们使用相同的搜索空间(Tan et al.， 2019)，架构类似于MnasNet，除了我们的efficient - Net- bo稍微大一些，因为我们的FLOPS目标更大(我们的FLOPS目标是400M)。表一显示了efficient - net - bo的架构。其mair构件为mobile倒置瓶颈MBConv (Sandler et al.， 2018: Tan et al.， 2019)，对此我们也ado压缩激励优化(Hu et al.， 2018: Tan et al.， 2019)。2018)。从baseline efficient - net - bo开始，我们通过两个步骤应用我们的复合缩放方法来扩展它:
在这里插入图片描述
从baseline efficient - net - bo开始，我们通过两个步骤应用我们的复合缩放方法来扩展它:
步骤1:首先fixφ=1，假设有两倍以上的资源可用，然后根据公式2和3对a、B、y进行小的网格搜索。特别地，我们发现在a. 82.2 ~2的约束下，efficiency - bo的最佳值分别为a=1.2,B= 1.1,7 = 1.15。在α · β2 · γ2 ≈ 2. 的约束下
第2步:将e、B、y固定为常数，利用公式3对不同的基线网络进行缩放，得到efficiency - bi到B7(详见表2)。
值得注意的是，通过直接围绕大型模型搜索a、B、y，有可能获得更好的性能，但在大型模型上搜索成本会变得昂贵得令人难以接受。我们的方法解决了这个问题，只在小的基线网络上进行一次搜索(步骤1)，然后对所有其他模型使用相同的缩放系数(步骤2)。

spark-aixin

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
efficientnet翻译加自己的理解

文章目录1、保存设置1、保存设置def zipdir(path, ziph): files = os.listdir(path) for file in files: if file.endswith(".py") or file.endswith("cfg"): ziph.write(os.path.join(path, file)) if file.endswith("cfg"): os.
复制链接

扫一扫