填充和步幅在卷积神经网络中的应用

Helloworld188888

已于 2023-04-25 12:06:28 修改

阅读量1.3k

点赞数 1

分类专栏：深度学习 Python pytorch 文章标签： cnn 深度学习神经网络

于 2023-04-25 10:24:14 首次发布

本文链接：https://blog.csdn.net/qq_24951479/article/details/130358676

版权

Python 同时被 3 个专栏收录

39 篇文章 3 订阅

订阅专栏

深度学习

37 篇文章 1 订阅

订阅专栏

pytorch

27 篇文章 1 订阅

订阅专栏

本文介绍了卷积神经网络中填充和步幅的概念，包括它们在保持输出大小、调整感受野等方面的作用。通过理论推导和PyTorch代码示例，详细阐述了如何计算和应用填充与步幅，以优化卷积层的性能。

摘要由CSDN通过智能技术生成

填充和步幅在卷积神经网络中的应用

引言

在卷积神经网络中，填充和步幅是两个重要的概念。填充是指在输入数据周围添加一定数量的虚拟数据，以便增加输出的大小。步幅则是指卷积核在输入数据上滑动的步长。本文将详细介绍填充和步幅的概念、应用以及计算方法，并使用PyTorch给出具体的例子。

填充

填充可以增加输出的大小，从而使得卷积层能够更好地保留输入数据的边缘信息。在卷积神经网络中，通常使用两种类型的填充：零填充和边缘填充。
在这里插入图片描述

理论推导

假设输入数据为 $X$ ，卷积核大小为 $K$ ，输出数据为 $Y$ ，则使用零填充的输出数据大小为：

$Y_{size} = (X_{size} - K_{size} + 2P) / S + 1$

其中， $P$ 是填充大小， $S$ 是步幅大小。为了使输出大小与输入大小相等，可以解出 $P$ 的值：

$P = (K_{size} - 1) / 2$

这个公式适用于卷积核大小为奇数的情况。如果卷积核大小为偶数，则需要使用边缘填充。

计算步骤

以一个 $\times 3$ 的输入数据和 $\times 2$ 的卷积核为例，假设步幅为1，使用零填充的计算步骤如下：

将输入数据周围填充一圈0，填充后的大小为 $\times 5$ 。
卷积核从输入数据的左上角开始，按照步幅1的方式向右滑动，每次计算一个输出元素。
对于每个输出元素，计算其对应的输入子矩阵和卷积核的点积，得到一个标量值。
将计算得到的标量值赋值给对应的输出元素。

例子

使用PyTorch实现一个 $\times 3$ 的输入数据和 $\times 2$ 的卷积核，步幅为1，使用零填充的卷积操作：

import torch

# 输入数据
x = torch.tensor([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
], dtype=torch.float32).unsqueeze(0).unsqueeze(0)

# 卷积核
k = torch.tensor([
    [1, 2],
    [3, 4]
], dtype=torch.float32).unsqueeze(0).unsqueeze(0)

# 零填充
p = (k.size(-1) - 1) // 2
x = torch.nn.functional.pad(x, (p, p, p, p))

# 卷积操作
y = torch.nn.functional.conv2d(x, k, stride=1)

print(y)

输出结果为：

tensor([[[[12., 16., 20.],
          [24., 28., 32.],
          [36., 40., 44.]]]])

步幅

步幅是卷积核在输入数据上滑动的步长。使用步幅可以减少输出数据的大小，从而减少计算量。在卷积神经网络中，通常使用两种类型的步幅：常规步幅和空洞步幅。
在这里插入图片描述

理论推导

假设输入数据为 $X$ ，卷积核大小为 $K$ ，输出数据为 $Y$ ，则使用常规步幅的输出数据大小为：

$Y_{size} = (X_{size} - K_{size}) / S + 1$

其中， $S$ 是步幅大小。如果使用空洞步幅，则输出数据大小为：

$Y_{size} = (X_{size} - K_{size} \times D) / S + 1$

其中， $D$ 是空洞大小。空洞步幅可以在不增加计算量的情况下增加感受野的大小。

计算步骤

以一个 $\times 5$ 的输入数据和 $\times 3$ 的卷积核为例，假设步幅为2，使用常规步幅的计算步骤如下：

卷积核从输入数据的左上角开始，按照步幅2的方式向右滑动，每次计算一个输出元素。
对于每个输出元素，计算其对应的输入子矩阵和卷积核的点积，得到一个标量值。
将计算得到的标量值赋值给对应的输出元素。

例子

使用PyTorch实现一个 $\times 5$ 的输入数据和 $\times 3$ 的卷积核，步幅为2的卷积操作：

import torch

# 输入数据
x = torch.tensor([
    [1, 2, 3, 4, 5],
    [6, 7, 8, 9, 10],
    [11, 12, 13, 14, 15],
    [16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25]
], dtype=torch.float32).unsqueeze(0).unsqueeze(0)

# 卷积核
k = torch.tensor([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
], dtype=torch.float32).unsqueeze(0).unsqueeze(0)

# 卷积操作
y = torch.nn.functional.conv2d(x, k, stride=2)

print(y)

输出结果为：

tensor([[[[ 99., 129.],
          [219., 249.]]]])

结构图

其中，输入数据经过卷积层后得到输出，同时可以进行填充和步幅操作，填充操作可以增加输入数据的维度，而步幅操作可以调整卷积层的感受野大小。

结论

填充和步幅是卷积神经网络中非常重要的概念。通过合理地使用填充和步幅，可以增强卷积神经网络的性能，提高模型的准确率和泛化能力。

参考文献

PyTorch官方文档：torch.nn.functional.conv2d
李沐等人，《动手学深度学习》，人民邮电出版社，2020。

Helloworld188888

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录