在阅读代码的时候就看到了padding和stride两个单词,来深度学习课程详细了解一下他们的作用。
填充和步幅是卷积层的两个超参数,通过他们可以改变输出形状。
(一)填充padding
填充是指在输入的四周添加0元素。
比如原输入数组形状是Nh×Nw,卷积核形状是Kh×Kw,那么原输出数组形状就是
(Nh-Kh+1)×(Nw-Kw+1)。如果我们对输入数组进行填充高加Ph,宽加Pw,那么新的输出数组形状就是(Nh-Kh+Ph+1)×(Nw-Kw+Pw+1)。
通常我们为了方便在构造网络时推测每个层的输出形状,会设置Ph=Kh-1,Pw=Kw-1。这样输入输出形状就是一致的。
具体来说,当卷积核Kh是奇数的时候,两边均填充Ph/2;是偶数的时候,Ph就是奇数,那么下侧填充不超过Ph/2的最大值,上侧填充大于Ph/2的最小值。Kw同理。
from mxnet import nd
from mxnet.gluon import nn
# 定义一个函数来计算卷积层。它初始化卷积层权重,并对输入和输出做相应的升维和降维
def comp_conv2d(conv2d, X):
conv2d.initialize()
# (1, 1)代表批量大小和通道数均为1
X = X.reshape((1, 1) + X.shape)
Y = conv2d(X)
return Y.reshape(Y.shape[2:]) # 排除不关心的前两维:批量和通道
# 注意这里是两侧分别填充1行或列,所以在两