这篇论文主要工作就是探索网络结构,对大规模图像识别任务,网络深度对于最终模型准确率的影响,带有小的卷积核(3*3)的网络,深度的增加会提高准确率,直到网络深度到达16-19层。
根据这个论文的摘要,我想到两个关键点:
- 为什么卷积核是3*3
- 为什么到16-19层精度不再提高
卷积核大小
在这篇论文中,我最感兴趣的点在于,卷积核大小的设置。
两个3*3的卷积层叠加,中间不加池化层,那么它的有效感受野(effective receptive field)的大小为5*5,其实就相当于一个5*5的卷积层。
三个3*3卷积层就相当于一个7*7的卷积层,至于为什么,可以画图看一下,很直观。
那么为什么选择3*3的卷积层
- 3*3卷积核是能够覆盖上/下,左/右的最小尺寸
- 多个卷积层叠加就有多个激活层(非线性映射),使得决策函数更有判别力
- 多个小卷积核的卷积层叠加会大大减小参数的数量
对于最后一点,举个例子解释一下:
3个3*3的卷积层 对比 1个7*7的卷积层
他们的感受野是一样的,假设它们的输入和输出通道都是C
3个3*3的卷积层:
1个卷积核的参数为3*3*C,有C个卷积核参数为3*3*C*C 3个卷积层就是27*C^2
1个7*7的卷积层:
1个卷积核的参数为7*7*C,有C个卷积核参数为7*7*C*C 1个卷积层就是49*C^2
可以看到,参数大大的减小了。
此外,1*1的卷积核也是一种不影响感受野,但是会增加决策函数非线性的一种方式。
网络深度
下图是网络结构的具体构造。
从作者的实验对比来看,D结构的设置的结果普遍高于其他的设置。
至于为什么,也没有严谨的数学证明。不过,实践是检验真理的唯一标准,从实验结果可以证明,在一定范围内,网络深度的增加有利于精度的提升。