动手学深度学习08：卷积中的填充与步幅

NUAA_Peter

已于 2023-01-03 18:19:53 修改

阅读量343

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉 cnn

于 2023-01-03 18:16:50 首次发布

本文链接：https://blog.csdn.net/peterwanye/article/details/128537219

版权

深度学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

动手学深度学习08：卷积中的填充与步幅

一个240×240像素的图像，经过10层5×5的卷积后，将减少到200×200像素。

如此一来，原始图像的边界丢失了许多有用信息。而填充是解决此问题最有效的方法；

有时，我们可能希望大幅降低图像的宽度和高度。例如，如果我们发现原始的输入分辨率十分冗余。步幅则可以在这类情况下提供帮助。

填充

通常，如果我们添加𝑝ℎ行填充（大约一半在顶部，一半在底部）和𝑝𝑤列填充（左侧大约一半，右侧一半），则输出形状将为
$(n_h-k_h+p_h+1)\times(n_w-k_w+p_w+1)$
在许多情况下，我们需要设置 $p_h=k_h-1$ 和 $p_w=k_w-1$ ，使输入和输出具有相同的高度和宽度。

步幅

每次滑动元素的数量称为步幅（stride）

通常，当垂直步幅为 $s_h$ 、水平步幅为 $s_w$ 时，输出形状为
$\lfloor(n_h-k_h+p_h+s_h)/s_h\rfloor \times \lfloor(n_w-k_w+p_w+s_w)/s_w\rfloor$
如果我们设置了 $p_h=k_h-1$ 和 $p_w=k_w-1$ ，则输出形状将简化为 $\lfloor(n_h+s_h-1)/s_h\rfloor \times \lfloor(n_w+s_w-1)/s_w\rfloor$ 。
更进一步，如果输入的高度和宽度可以被垂直和水平步幅整除，则输出形状将为 $(n_h/s_h) \times (n_w/s_w)$ 。

代码

import torch
from torch import nn


# 为了方便起见，我们定义了一个计算卷积层的函数。
# 此函数初始化卷积层权重，并对输入和输出提高和缩减相应的维数
def comp_conv2d(conv2d, X):
    # 这里的（1，1）表示批量大小和通道数都是1
    X = X.reshape((1, 1) + X.shape)
    Y = conv2d(X)
    # 省略前两个维度：批量大小和通道
    return Y.reshape(Y.shape[2:])

# 请注意，这里每边都填充了1行或1列，因此总共添加了2行或2列
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
print(comp_conv2d(conv2d, X).shape)

# 当卷积核的高度和宽度不同时，可以填充不同的高度和宽度
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))
print(comp_conv2d(conv2d, X).shape)

conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
print(comp_conv2d(conv2d, X).shape)

conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
print(comp_conv2d(conv2d, X).shape)