For a given accuracy level, it is typically possible to identify multiple CNN architecture that achieve that accuracy level.
思想
现在研究深度卷机模型,主要有两个出发点:
- 给定数据集,提高精度
- 给定精度,降低模型参数大小
参数少的好处:
- 在分布式训练更有效:more efficient distributed training
- 模型小的话,在终端上远程更新更方便:less overhead when exporting new models to clients
- 更有利于在FPGA或者嵌入式设备上运行:feasible FPGA and embedded deployment
With this in mind, we focus directly on the problem of identifying a CNN architecture with fewer parameters but equivalent accuracy compared to a well-known model.
从而,作者提出了一种全新的网络结构-SqeezeNet,与AlexNet进行比较。
- 对比了SqueeseNet与AlexNet的参数量
- 深入理解了卷积结构的设计对模型大小和精度的影响
网络结构
作者构建网络的时候,主要从三个方面进行考虑:
- 利用1x1的卷积核代替3x3卷积:可以有效降低参数
- 降低3x3卷积操作的输入
- 降采样操作延后,可以得到比较大的特征图
Microarchitecture
作者提出了一种小的卷积模块-Fire module
- 1x1卷积后面接了两种卷积:1x1,3x3
- squeeze中的1x1用于降维作用,输出通道数为expand输出的 <