动手学深度学习20 卷积层里的填充和步幅

陌上阳光

于 2024-05-16 08:00:00 发布

阅读量933

点赞数 19

分类专栏：动手学深度学习文章标签：深度学习人工智能 pytorch 卷积神经网络

本文链接：https://blog.csdn.net/weixin_42831564/article/details/138916388

版权

动手学深度学习专栏收录该内容

46 篇文章 12 订阅

订阅专栏

动手学深度学习20 卷积层里的填充和步幅

1. 填充和步幅
2. 代码实现
3. QA
4. 练习

课本： https://zh-v2.d2l.ai/chapter_convolutional-neural-networks/padding-and-strides.html

1. 填充和步幅

在这里插入图片描述

卷积网络可调的超参数。
当输入shape一定，卷积核shape一定，想要做更深层的网络怎么处理数据shape不够大的问题，填充。输出可能比输入还要大。
在这里插入图片描述

层数越多，计算越复杂，卷积核大小不变，输入输出shape大小是线性相关，加上步幅，成指数相关。shape大小下降比较快。

在这里插入图片描述
步幅通常取2。一般取填充合适，高和宽都是2的倍数，且步幅取2，每层网络都是把输入输出的高和宽全部做除2的操作。
填充：当不想模型模型改变输入的大小，或者想要训练深层网络时使用。
步幅：控制滑动窗口挪动行列的步长，成倍减少输入的形状。当输入shape过大，可以用步幅成倍缩小输出shape，减少计算量。
在这里插入图片描述

2. 代码实现

超参数：padding stride
当输入数据不是方块，可以通过超参数控制调整输出数据的shape。

# 当不考虑输入输出通道 批量大小数 输入就是一个矩阵
# padding=1 上下左右各填充一行 每一边填充的多少行
import torch
from torch import nn

# 为了方便起见，我们定义了一个计算卷积层的函数。
# 此函数初始化卷积层权重，并对输入和输出提高和缩减相应的维数
def comp_conv2d(conv2d, X):
  # 这里的（1，1）表示批量大小和通道数都是1
  # 元组连接运算符 (1, 1)+(1,1)=(1,1,1,1)
  X = X.reshape((1, 1)+ X.shape)
  Y = conv2d(X)
  # 省略前两个维度：批量大小和通道
  return Y.reshape(Y.shape[2:])

# 请注意，这里每边都填充了1行或1列，因此总共添加了2行或2列
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
print(comp_conv2d(conv2d, X).shape)

# 当卷积核的高度和宽度不同时，我们可以填充不同的高度和宽度，使输出和输入具有相同的高度和宽度
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2,1))
print(comp_conv2d(conv2d, X).shape)

# 高度和宽度的步幅设置为2，从而将输入的高度和宽度减半
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
print(comp_conv2d(conv2d, X).shape)

conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
print(comp_conv2d(conv2d, X).shape)
# 认情况下，填充为0，步幅为1。在实践中，我们很少使用不一致的步幅或填充.

torch.Size([8, 8])
torch.Size([8, 8])
torch.Size([4, 4])
torch.Size([2, 2])

3. QA

是55层。每层减去4,(224-4)/4=55
一般填充会让输入输出高宽一样，通常设置为kernel-1，为了让每层输入输出大小一样，这样输入输出关系计算方便。
步幅一般取1，当觉得计算量太大，不想选用很多层，步幅就不取1，通常步幅取2，每次减半，计算能有多少次减半，把步幅均匀的插在卷积网络中。
核大小通常是关键的。填充一般取默认的。步幅取决于你要把模型复杂度控制在什么程度。
卷积核边长一般选奇数，是为了对称，上下填充是对称的情况。一般卷积核用3*3，效果都差不多。
当224*224维度，五六次减半数据维度都没有了，没有办法做很深的网络，减半是很少的情况，多数情况输入输出shape是不变的。
步幅填充 kernel 通道数是神经网络架构的一部分，是网络怎么设计的一部分，不那么敏感，很少调整。当你用定义好的网络架构的时候，这些参数就已经被设定好了。
实际上，多用经典网络结构。RestNet。当输入数据是个非常不一样的，经典的结构无法处理，可以自己设计。网络结构没有那么关键，只是一部分。数据是怎么预处理的，细节是怎么处理的也占很大部分。
分别应用可以用元组padding=(1,1) 行列表示。
padding=1=(1,1), 左右各填充一行，跟slide一共填充多少行多少列不一样。
张量的形状一般都是整数，都有向上或向下取整。不会有小数的情况。
3*3视野小，但深网络视野就大了。
nas-让超参数也参与训练，自动机器学习的一部分。或者根据硬件情况搜索一个比较好的参数。
信息一定会是丢失的。机器学习本质上是一个极端压缩算法。把原始计算机能理解的像素信息，文字的字符串信息等压缩到人能理解的语义空间。
有自动调参功能，不建议用，比较贵。
autoguluon也有做nas，比较贵。
验证集设置的很好，过拟合会很好的避免，自动调参会带来一定的过拟合，但可以控制。
三层的33是否可以用2层55替代呢。效果上是可以替代的，但是3*3计算速度是更快的。计算复杂度，kernel计算是平方项，复杂度高，高宽的限制是线性的关系。
主流底层可以用大一点的kernel，后面的用33多， 33便宜一点，构造方便一点。简单的网络容易通用。可以试。
一个特定的卷积层可以看特定的纹理，不同卷积层看不同的纹理。
更多的数据–数据贵；gpu计算替代了人力、数据的成本。用机器代替人力。