EfficientNet:Rethinking Model scaling for Convolutional Neural Network
主要贡献
- 对模型缩放进行了系统性研究,发现仔细平衡网络的深度、宽度和分辨率可以带来更好的表现。
- 提出了一种新的模型缩放方法,使用一个简单但高效的复合系数统一调整模型的深度、宽度和分辨率。
- 模型缩放的有效性严重依赖于基线网络。更进一步,使用神经结构搜索开发了一个新的基线网络,并扩展它得到一系列模型,称之为EfficientNets。
Viewpoints
- 通常卷积网络设计的焦点在于发现最好的层结构。模型缩放试图去扩展网络长度、宽度和(或)分辨率,不用改变基线网络的结构。
- 随着模型加深可能遇到梯度消失问题,另外准确率增益优势消失。
- 缩放网络宽度通常用于小尺寸模型。但是非常宽但是深度不足的网络难以捕捉更高水平的特征。随着网络不断加宽,精确率快速饱和,增益优势缩小。
- 缩放网络分辨率,更高的分辨率提高了精度。但是对于非常高的分辨率,模型精确度增益逐渐消失。
计算逻辑
在小的基线网络上通过网格搜索的方法获取缩放系数a,b,y;然后直接迁移应用于另一些模型上。
训练参数及效果
- 在ImageNet数据集上训练,优化器采用RMSProp,decay0.9 、momentum 0.9; batch norm momentum 0.99;weight decay 1e-5; 初始学习率 0.256 ,每迭代2.4轮衰减到0.97倍;采用swish激活,自增强策略,采用幸存概率为0.8的随机深度;dropout正则化在取值在0.2-0.5范围内;
- 在EfficientNet-B0(结构类似于MnasNet)的基础上,固定a,b,y,调整φ得到B1-B7模型;
- 文章没有公布训练好的参数值a,b,y和φ;
- EfficientNet使用少一个数量级的参数实现了更高的准确率。
论文
EfficientNet:RethinkingModelScalingforConvolutionalNeuralNetworks.
链接:论文地址