作用:
-
3×3是最小的能够捕获像素八邻域信息的尺寸。
-
两个3×3的堆叠卷基层的有限感受野是5×5;三个3×3的堆叠卷基层的感受野是7×7,故可以通过小尺寸卷积层的堆叠替代大尺寸卷积层,并且感受野大小不变。所以可以把三个3×3的filter看成是一个7×7 filter的分解中间层有非线性的分解, 并且起到隐式正则化的作用。
-
多个3×3的卷基层比一个大尺寸filter卷基层有更多的非线性(更多层的非线性函数,使用了3个非线性激活函数),使得判决函数更加具有判决性。
-
多个 3×3 的卷积层比一个大尺寸的filter有更少的参数,假设卷积层的输入和输出的特征图大小相同为C,那么三个3×3的卷积层参数个数为:3×((3×3×C)×C)=27×C×C;一个(7×7×C)×C的卷积层参数为49×C×C。前者可以表达出输入数据中更多个强力特征,使用的参数也更少。唯一的不足是,在进行反向传播时,中间的卷积层可能会导致占用更多的内存;
1×1卷积核的作用:
在不影响输入输出维数的情况下,对输入进行线性形变,然后通过激活函数进行非线性处理,增加网络的非线性表达能力。
- 通过控制卷积核个数实现升维或者降维,从而减少模型参数
- 对不同特征进行归一化操作
- 用于不同channel上特征的融合