本文是MSRA的何恺明在14年写的论文,通过一系列的替换实验,探讨了在限定复杂度和时间上,如何设计卷积网络结构,使得网络的性能最好。本文提出的CNN结构,在单个GPU上训练3到4天,在简单的10-view测试下获得了top-5 11.8%的准确率;做到了不仅快而且准确。
摘要:本文主要结论,1在提升准确度上深度比宽度和filter尺寸更重要;2,尽管深度很重要,如果深度随意增加分类结果会停滞,甚至降低。
一,介绍
最近提出的CNN虽然性能比Alex-net好,但是基本上都比Alex-net复杂,在训练和测试上很耗时。这些网络基本上修改了以下一些地方:1,增加宽度(filter的数量),例如zf-big模型,OverFeat-accurate模型;2,增加深度,OverFeat-accurate,VGG;3,小的间隔,ZF-net,OverFeat,VGG;或者是3者的组合使用。
这些复杂的网络不适合工业和商业的使用,此外在训练时间上也非常耗时;多以本文主要在限定时间内探究如何平衡CNN网络中深度,filter个数,间隔等影响网络复杂度的因素。
本文的核心设计是层替换(layer-replacement),通过在固定复杂度下替换实验,不仅得到了好的分类网络,而且还有助于理解卷积网络,帮助设计更好的网络。
二,相关工作
最近一些学者研究加速训练好的CNN运算速度;在一定的准确率损失下,通过近似和简化CNN网络,加速CNN计算。这些方法加速能力有限,人们更愿意找到满足限定时间要求的网络,这样不仅测试计算快速,而且还可以节省训练时间。
最近GoogLeNet提出了,inception-layer,inception是一个多路的设计,其融合了各种filter大小的特征;这个模型的理论复杂度比Alex-net复杂50%。
三,性质
3.1 基本模型
本文基于流行的三段式设计,两个pooling之间为一个阶段,提出了一个更加“苗条”的CNN网络。
具体配置如下:
Input(224,224,3)→64F(7,7,3,s=2) →max-p(3,3,3)→128F(5,5,64) →max-p(2,2,2) →256F(3,3,128) →256F(3,3,256) →256F(3,3,256) →