**
实例理解卷积与池化操作前后的图像大小变化以及padding参数的含义
**
引言
- 最近因为毕设在学卷积神经网络,一直比较困惑卷积或者池化操作以后图像如何发生变化。在网上查了不少资料,可以找到一些公式,但是并没有详细说明使用情境且很少实例讲解。因此我总结前人的工作,整理成一个博客,算是自己学习的一个记录,也希望能够帮助到一些CNN学习者。
- 我参考的博客有padding填充same 和valid两种方式
和卷积神经网络池化后的特征图大小计算。 - 本文若有侵权,请联系本人进行删除或者修改。
padding参数
- padding是tensorflow中卷积、池化API中必需的一个参数,有’SAME’和’VALID’两个值。当padding='SAME’时会对输入图像(下边代码中的x)的边缘用0填充,不少博客有说padding='SAME’时,输入和输出图像可以保持大小不变,这个说法是片面的,为什么下边会讲到。padding='VALID’时,则不对输入图像边缘填充,故图像大小一定缩小。
卷积、池化前后图像尺寸变化详解
-
相关参数说明
stride,步长,表示为S;
width,输入图像宽度,表示为W;
height,输入图像高度,表示为H;
filter,卷积核,表示为F;
本博客假设W与H相等。 -
卷积操作
stride=[1,1,1,1]时:
padding=‘SAME’,卷积操作后图片大小不变
padding=‘VALID’,output_height=output_width = (W – F + 1) / S (结果向上取整)stride≠[1,1,1,1]时:
padding=‘SAME’,output_height = output_width = W / S (结果向上取整)
padding=‘VALID’,output_height = output_width = (W – F + 1) / S(结果向上取整) -
池化操作
池化层通常以卷积层为输入,故此处的W和H分别为卷积层输出的featuremap的宽或者高,F为池化时的ksize的大小,S仍为步长
stride≠[1,1,1,1]时:
padding='SAME’时,output_height = output_width = W / S或者H / S (结果向上取整)
padding='VALID’时,output_width = (W - F) / S + 1,output_height = (H - F) / S + 1stride=[1,1,1,1]时:
padding='SAME’时,池化后featuremap大小不变,output_width =
W,output_height = H
padding=‘VALID’,output_height=output_width = (W – F + 1) / S
实例代码
import tensorflow as tf
# 定义卷积核
kernel = tf.Variable(tf.truncated_normal([11, 11, 3, 96], dtype=tf.float32,
stddev=1e-1), name='weights')
# 定义输入x,默认图像大小224*224,RGB3通道,1张图片
x = tf.Variable(tf.constant(1,shape=[1,224,224,3],dtype=tf.float32))
biases = tf.Variable(tf.constant(0.0, shape=[96], dtype=tf.float32),
trainable=True, name='biases')
sess = tf.Session()
sess.run(tf.global_variables_initializer())
# 测试卷积层中padding的公式
# stride=1时
# 通过打印变量,对比shape的变化,看图像尺寸大小的变化
print("stride=1时公式验证")
conv_s1_same = tf.nn.conv2d(x, kernel, [1, 1, 1, 1], padding='SAME')
conv_s1_valid = tf.nn.conv2d(x, kernel, [1, 1, 1, 1], padding='VALID')
print("x: ", x)
print("conv_s1_same: ", conv_s1_same)
print("conv_s1_valid: ", conv_s1_valid)
#stride>1时,此处stride=4
print("\nstride=4时公式验证")
conv_s4_same = tf.nn.conv2d(x, kernel, [1, 4, 4, 1], padding='SAME')
conv_s4_valid = tf.nn.conv2d(x, kernel, [1, 4, 4, 1], padding='VALID')
# 通过打印变量,对比shape的变化,看图像尺寸大小的变化
print("x: ", x)
print("conv_s4_same: ", conv_s4_same)
print("conv_s4_valid: ", conv_s4_valid)
# 以conv_s4_same作为输入验证池化操作后图像大小变化
# 通过打印变量,对比shape的变化,看图像尺寸大小的变化
print("\nstride=3时公式验证")
pool_s3_same = tf.nn.max_pool(conv_s4_same,ksize=[1, 3, 3, 1],strides=[1, 3, 3, 1],padding='SAME')
pool_s3_valid = tf.nn.max_pool(conv_s4_same,ksize=[1, 3, 3, 1],strides=[1, 3, 3, 1],padding='VALID')
print("conv_s4_same: ", conv_s4_same)
print("pool_s3_same: ", pool_s3_same)
print("pool_s3_valid: ", pool_s3_valid)
print("\nstride=1时公式验证")
pool_s1_same = tf.nn.max_pool(conv_s4_same,ksize=[1, 3, 3, 1],strides=[1, 1, 1, 1],padding='SAME')
pool_s1_valid = tf.nn.max_pool(conv_s4_same,ksize=[1, 3, 3, 1],strides=[1, 1, 1, 1],padding='VALID')
print("conv_s4_same: ", conv_s4_same)
print("pool_s1_same: ", pool_s1_same)
print("pool_s1_valid: ", pool_s1_valid)
结果分析
- 此部分为上面的代码运行结果显示,并非代码!!!
# 卷积操作前后图像大小变化
stride=1时公式验证
x: <tf.Variable 'Variable_14:0' shape=(1, 224, 224, 3) dtype=float32_ref>
conv_s1_same: Tensor("Conv2D_27:0", shape=(1, 224, 224, 96), dtype=float32)
conv_s1_valid: Tensor("Conv2D_28:0", shape=(1, 214, 214, 96), dtype=float32)
stride=4时公式验证
x: <tf.Variable 'Variable_14:0' shape=(1, 224, 224, 3) dtype=float32_ref>
conv_s4_same: Tensor("Conv2D_29:0", shape=(1, 56, 56, 96), dtype=float32)
conv_s4_valid: Tensor("Conv2D_30:0", shape=(1, 54, 54, 96), dtype=float32)
# 池化操作后featuremap大小变化
stride=3时公式验证
conv_s4_same: Tensor("Conv2D_45:0", shape=(1, 56, 56, 96), dtype=float32)
pool_s3_same: Tensor("MaxPool_18:0", shape=(1, 19, 19, 96), dtype=float32)
pool_s3_valid: Tensor("MaxPool_19:0", shape=(1, 18, 18, 96), dtype=float32)
stride=1时公式验证
conv_s4_same: Tensor("Conv2D_45:0", shape=(1, 56, 56, 96), dtype=float32)
pool_s1_same: Tensor("MaxPool_20:0", shape=(1, 56, 56, 96), dtype=float32)
pool_s1_valid: Tensor("MaxPool_21:0", shape=(1, 54, 54, 96), dtype=float32)
卷积前后变化分析,输入图像224*224,步长为1时,SAME模式下,输出大小没变化,见conv_s1_same;VALID模式下,输出高度宽度等于(224-11+1)/1=214,见conv_s1_valid;步长为4时,SAME模式下,输出宽高等于224/4=56,见conv_s4_same;VALID模式下,输出宽高等于(224-11+1)/4向上取整为54,见conv_s4_valid。
池化前后变化分析,输入featuremap尺寸56*56,步长为3时,SAME模式下,输出高宽为56/3,向上取整为19,见pool_s1_same;VALID模式下,输出高宽为(56-3+1)/3=18,见pool_s3_valid;步长为1时,SAME模式下,输出高宽不变,见pool_s1_same;VALID模式下,输出高宽为(56-3+1)/1=54,见pool_s1_valid。