Abstract: CNN通常都是在固定资源预算下开发设计,如果有更多的可用资源再将模型结构放大以获取更高的精度。这篇文章系统性的研究了模型的缩放并且仔细验证了网络深度,宽度,分辨率之间的平衡可以使网络获得更好地性能表现。基于此发现,提出了一个新的网络缩放方法----利用一个简单且高效的复合系数来完成对深度/宽度/分辨率所有维度的统一缩放。文中通过MobileNets和ResNets对这种方法的高效性进行了展示。
更进一步说,文中使用神经网络结构搜索设计一个新的baseline网络,并且将模型放大获得一系列模型,比之前CNN的准确率更好更有效,称之为EfficientNets。特别的,EfficientNets-B7 在ImageNet上获得了SOTA的成绩,精度分别为84.4%/top-1和97.1%top-5。同时比之前最好的CNN缩小了8.4倍,并且快了6.1倍。EfficientNet也可以很好地用在迁移学习上,并且在CIFAR-100(91.7%精确率)和Flowers(98.8%精确率)等其他三个迁移学习数据集上分别获得了SOTA精度,参数减少一个数量级。