摘要
卷积神经网络是在固定的资源预算下开发的,如果有更多的资源可用,可以相应地得到更高的准确率。在本文中,我们系统地研究模型压缩并确认小心地平衡网络深度、宽度和分辨率能够带来更好的效果。通过这一观察,我们提出了一种新的缩放方法:使用简单高效的复合系数统一缩放所有的维度,包括深度、宽度以及分辨率。我们证明这种方法在压缩MobileNets和ResNets网络是有效的。
为了更进一步,我们使用神经架构搜索来设计新的基础结构,进行缩放以获得一系列模型,称为EffientNets,它比以前的ConvNets具有更高的准确性和效率。特别地,我们的EfficientNet-B7在ImageNet上实现了最先进的84.4%top-1 / 97.1%top-5精度,同时比现有最好的ConvNet小8.4倍,推理速度快6.1倍。我们的EfficientNets在CIFAR-100(91.7%),Flowers(98.8%)和其他3个传输学习数据集上也能很好地传输和实现最先进的精度,参数的数量级减少了一个数量级。
简介
缩放ConvNets被广泛地用来实现更高的准确率。比如,ResNet可以通过使用更多的层从18缩放到200,GPipe通过将基础结构缩放为原来的四倍实现了在ImageNet数据集top-1 84.3%的准确率。然而,网络缩放的方式不能被理解,并且没有一个确切的缩放方式。最常见的方式是网络深度或宽度的缩放。另一个比较常见的,但是最近很流行的方法是通过图片分辨率的缩放来缩放网络。在之前的工作中,缩放宽度、深度和分辨率的某一项是十分常见的。尽管可以任意缩放二维或三维,但任意缩放需要繁琐的手动调整,并且仍然经常产生次优的精度和效率。