ResNet中的conv layer,使用的不是普通的tf.layers.conv2d(),而是对same padding进行了一定处理。
def conv_layer(bottom, filters, kernel_size, name=None, strides=1, padding='same',
use_bias=False, kernel_initializer= tf.contrib.layers.variance_scaling_initializer()):
if strides is not 1:
padding = 'valid'
pad_total = kernel_size - 1
pad_begin = pad_total // 2
pad_end = pad_total - pad_begin
bottom = tf.pad(bottom, [[0, 0], [pad_begin, pad_end], [pad_begin, pad_end], [0, 0]])
bias_initializer = tf.constant_initializer(value=0.0)
top = tf.layers.conv2d(bottom,
filters=filters,
kernel_size=kernel_size,
strides=strides,
padding=padding,
kernel_initializer=kernel_initializer,
bias_initializer=bias_initializer,
use_bias=use_bias,
name=name)
return top
在上面的conv操作中,对步长不为1的情况,对tensorflow的padding进行了修正。
首先说一下为什么要修正,因为在tf.layers.conv2d(padding=‘SAME’)下,tf对input边缘pad多少是根据input的size决定的,举个例子
input=225, kernel=7, stride=2 —> padding = [3, 3]
input=224, kernel=7, stride=2 —> padding = [2, 3]
而我们希望的场景是,pad的多少仅仅根据kernel size来决定,比如说,kernel size是7,那么padding就是[3,3]不要改变了,多pad出来的,没用到也就不要了。所以在上述fixed padding的代码中,直接对input的左右填充kernel_size//2 和 kernel_size-1-kernel_size//2 .在这个情况下,再使用tf中的’VALID’ padding模式,而我们知道,’VALID’ padding模式其实就是不padding,多的就丢。
所以这么一来,padding大小仅仅取决于kernel的大小了。
这有什么好处呢 ?吴育昕(ppwwyyxx)在tensorflow的github下详细解释了这方面问题,链接 Request a new padding mode