EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
一句话总结:
这篇文章提出了一个简单高效的复合缩放方法,通过平衡网络深度、宽度和分辨率的缩放系数来scale up CNN以实现更好的精度和效率。
具体内容:
这里的三个维度分别是宽度w对应通道数channels,深度d对应层数layers,分辨率对应图片的H*W。
ConvNet的定义。i代表stage数,Fi是基础网络层,Li是在第i个stage中Fi的重复次数。
这个方法就是在固定Fi的前提下,扩展Li、Ci、(Hi,Wi),但是这样搜索空间较大。
为进一步减少设计空间,对所有层统一以一个常量比例缩放,也就是在给定资源预算下最大化模型精度。
三个维度的缩放系数对精度和效率的影响。可以观察到对网络深度、宽度和分辨率中的任何维度进行缩放都可以提高精度,但是当模型足够大时,这种放大的收益会减弱,也就是会区域饱和。对于分辨率更高的图像需要更大的感受野来帮助捕获更多像素点因此需要增加网络深度,同时也应该增加网络宽度来获得更细粒度的特征,所以这三个缩放维度之间是不独立的。
因此为了在缩放时平衡三个维度文章又引入了一个复合系数fai统一缩放网络宽度、深度和分辨率。