inception 就是将之前的卷积层的叠加,变成了inception module的叠加, 以求用更少的参数,提取出更丰富的特征。
文章分析了以往的inception 模型,都是先进行1x1的卷积,映射到3-4个不同的维度,这相当于提取cross channel correlation ,然后再进行3x3,5x5的卷积,为的是提取spatial correlations。作者提出了一个问题,能不能将这二者完全分开?cross-channel correlations and spatial correlations can be mapped completely separately?
inception 和 depthwise separable convolution的区别
1.inception module是先做1x1卷积,再做空间上的3x3,5x5的卷积,而depthwise separable 卷积则是相反的。
2. 有没有非线性变换,inception 的每一种卷积后面都跟的有relu,但是depthwise 后面没有非线性变换。
depthwise separable convolution,其实就是将传统的卷积操作分成两步,假设原来是3*3的卷积,
- depthwise convolution
先用M个3*3卷积核一对一卷积输入的M个feature map,不求和,生成M个结果; - pointwise convolution
然后用N个1*1的卷积核正常卷积前面生成的M个结果,求和,最后生成N个结果