参考:https://www.zhihu.com/question/265791259
主要原因很简单,因为两个3x3的卷积核的感受野的大小刚好是5x5。
看了高赞的还是没明白,自己想了一下。
比如,一个原始矩阵是2*3,卷积核是3*3,那么卷积结果是4*5的矩阵
一个4*5的矩阵继续和3*3的卷积核卷积,结果是6*7的矩阵
2*3的直接和5*5的卷积,结果是6*7的矩阵。
所以如果需要一个6*7的感受野,那么一个5*5的卷积核与2个3*3的结果是相同的。
作者:hi小蜗
链接:https://www.zhihu.com/question/265791259/answer/335090931
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
放张图你就明白了,截取自Google的Inceptionv3 <Rethinking the Inception Architecture for Computer Vision>
可以从这张图上看到,两个3x3的卷积核的感受野是不是5x5呢?那么为什么要进行把5x5替换成两个3x3呢?原因其实很简单,两个3x3的参数量少啊。
- 假设输入维度 input_channel = output_cha