使用Caffe 跑 Google 的Inception V2 对输入图片的shape有要求,某些shape输进去可能会报错。
Inception model中有从conv和pooling层concat的操作,而conv和pooling的output输出计算方式不完全一样。解决方案:
1. 按照原来prototxt输出图片
2. 把concat层前面stride为2的conv层替换stride为1,再额外加上一个stride为2的pooling层
e.g. 以 Inception v2 为例子InceptionBN
conv_3c_3x3, conv_3c_double_3x3_1
conv_4e_3x3, conv_4e_double_3x3_1
然后再接上 stride 为2 的max pooling 层,这样几个分支出来的shape都会保持一致。
layer {
name: "conv_3c_3x3" type: "Convolution" bottom: "conv_3c_3x3_reduce" top: "conv_3c_3x3" convolution_param { num_output: 240 kernel_size: 3 stride: 1 pad: 1 } } layer { name: "max_pool_3c_3x3" type: "Pooling" bottom: "conv_3c_3x3" top: "conv_3c_3x3" pooling_param { pool: MAX kernel_size: 3 stride: 2 pad: 0 } }
这是取巧的做法,虽然保持了加载模型参数一致,但是增加了conv操作(stride变小)和多了一层pooling操作,会增加计算量和消耗显存。