39_上下采样、MaxPool2d、AvgPool2d、ReLU案例、二维最大池化层和平均池化层、填充和步幅、多通道

最新推荐文章于 2024-09-24 14:49:05 发布

涂作权的博客

最新推荐文章于 2024-09-24 14:49:05 发布

阅读量6.3k

点赞数 1

分类专栏： # Pytorch学习笔记 # TensorFlow2\Keras

本文链接：https://blog.csdn.net/tototuzuoquan/article/details/113825574

版权

Pytorch学习笔记同时被 2 个专栏收录

56 篇文章 18 订阅

订阅专栏

TensorFlow2\Keras

14 篇文章 1 订阅

订阅专栏

1.34.PyTorch Down/up sample (pytorch上下采样)
1.34.1. 首先介绍下采样
1.34.1.1. MaxPool2d案例
1.34.1.2. AvgPool2d案例
1.34.2. F.interpolate案例（上采样）
1.34.3.ReLU案例
1.34.4.Pooling
1.34.4.1.二维最大池化层和平均池化层
1.34.4.2.填充和步幅
1.34.4.3.多通道
1.34.4.4.小结

1.34.PyTorch Down/up sample (pytorch上下采样)

pooling(池化)层原则上为采样操作，与upsample(上采样)不同的是，pooling为下采样操作，即将feature map变小的操作。

那么下采样和上采样是什么含义呢？

1.34.1.首先介绍下采样

在这里插入图片描述
如图所示，将图片上的矩阵由右变向左的操作即为下采样。上图可见是每隔1个元素取一个样，向右方向取了A和B、向下方向取了A和C。这样完成了44矩阵向22矩阵的转化。

而在卷积神经网络中，以max pooling操作为例：
过程如下
在这里插入图片描述

Kernel size为2*2的小窗口，在第一个框内取了最大值6后，向右方向进行了步长为2的移动，在2、4、7、8四个值中取了最大值8。同理再进行向下移动。
与max pooling对应的还有Avg pooling，即取平均数。
比较简单，这里不再赘述。
那么在pytorch中如何完成pooling（下采样）操作。

1.34.1.1.MaxPool2d案例

# -*- coding: UTF-8 -*-

import torch
import torch.nn as nn

# 先定义x
x = torch.rand(1, 16, 28, 28)
# 括号内第一个参数是：窗口的大小，第二个是移动的步长距离
layer = nn.MaxPool2d(2, stride=2)
out1 = layer(x)
print(out1.size())
"""

输出结果：
torch.Size([1, 16, 14, 14])
"""

1.34.1.2.AvgPool2d案例

# -*- coding: UTF-8 -*-

import torch
import torch.nn as nn

# 先定义x
x = torch.rand(1, 16, 28, 28)
# 括号内第一个参数是：窗口的大小，第二个是移动的步长距离
layer = nn.AvgPool2d(2, stride=2)
# 进行Avg pooling的计算
out2 = layer(x)
print(out2.size())
"""
输出结果：
torch.Size([1, 16, 14, 14])
"""

1.34.2.F.interpolate案例（上采样）

同样向上采样的过程为：
在这里插入图片描述

如上图从左至右的过程为上采样过程。上图将原数据进行复制即得到新的数据。
在PyTorch中，代码为：

# -*- coding: UTF-8 -*-

import torch
import torch.nn.functional as F

# 先定义x
x = torch.rand(1, 16, 28, 28)
# 上采样的API为: .interpolate
# 括号内参数为输入的tensor、放大的倍率、模式为紧邻差值法
out = F.interpolate(x, scale_factor=2, mode='nearest')
print(out.size())
"""
输出结果：
torch.Size([1, 16, 56, 56])
"""

Bias和input channel不发生改变，原来的2828放大两倍至5656

1.34.3.ReLU案例

下面再简单扼要的介绍ReLU的效果：
在这里插入图片描述
之前有介绍过ReLU函数时将低于某个阈值的输出全部归为0，高于阈值的线性输出。
上图是使用效果图。将黑色区块全部取消：

# -*- coding: UTF-8 -*-

import torch
import torch.nn as nn

x = torch.rand(1, 16, 28, 28)
layer = nn.ReLU(inplace=True)
out = layer(x)
print(out.size())
"""
在进行ReLU操作，进行inplace操作后，较小值会变为零，但数据的size不会发生改变。
通过这种数据会节省一部分的数据存储量。
输出结果：
torch.Size([1, 16, 28, 28])
"""

1.34.4.Pooling

在这里插入图片描述
一个典型的训练神经网络的步骤是：

定义一个包含一组待学习的参数的神经网络
将数据输入到神经网络中并进行前向传播
根据损失函数计算输出结果与目标值之间的差距
进行梯度反向传播到各个参数
更新网络参数，典型的更新方式是：weight=weight-learning_rate*gradinet

实际图像里，我们感兴趣的物体不会总出现在固定位置：即使我们连续拍摄同一个物体也极有可能出现像素位置上的偏移。这会导致同一个边缘对应的输出可能出现在卷积输出Y中的不同位置，进而对后面的模式识别造成不便。

Pooling层，它的提出是为了缓解卷积层对位置的过度敏感性。

1.34.4.1.二维最大池化层和平均池化层

同卷积层一样，池化层每次对输入数据的一个固定形状窗口（又称池化窗口）中的元素计算输出。不同于卷积层里计算输入和核的互相关性，池化层直接计算池化窗口内元素的最大值或者平均值。该运算也分别叫做最大池化或平均池化。在二维最大池化中，池化窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。当池化窗口滑动到某一位置时，窗口中的输入子数组的最大值即输出数组中相应位置的元素。
在这里插入图片描述

图5.6展示了池化窗口形状为2 × 2的最大池化，阴影部分为第一个输出元素及其计算所使用的输入元素。输出数组的高和宽分别为2，其中的4个元素由取最大值运算max得出：
在这里插入图片描述
二维平均池化的工作原理与二维最大池化类似，但将最大运算符替换成平均运算符。

1.34.4.2.填充和步幅

同卷积层一样，池化层也可以在输入的高和宽两侧的填充并调整窗口的移动步幅来改变输出形状。池化层填充和步幅与卷积层填充和步幅的工作机制一样。我们将通过nn模块里的二维最大池化层MaxPool2d来演示池化层填充和步幅的工作机制。我们先构造一个形状为(1,1,4,4)的输入数据，前两个维度分别是批量和通道。

X = torch.arange(16, dtype=torch.float).view((1, 1, 4, 4))
X
“””
输出结果：
tensor([[[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.]]]])
“””

默认情况下，MaxPool2d实例里步幅和池化窗口形状相同。下面使用形状为(3,3)的池化窗口，默认获得形状为(3,3)的步幅。

pool2d = nn.MaxPool2d(3)
pool2d
“””
输出结果：
tensor([[[[ 5.,  7.],
        [13., 15.]]]])
“””

当然，我们也可以指定非正方形的池化窗口，并分别指定高和宽上的填充和步幅。

pool2d = nn.MaxPool2d((2, 4), padding=(1,2), stride=(2, 3))
pool2d(X)
“””
输出：
tensor([[[[ 1.,  3.],
        [ 9., 11.],
        [13., 15.]]]])
“””

1.34.4.3.多通道

在处理多通道输入数据时，池化层对每个输入通道分别池化，而不是像卷积层那样将各通道的输入按通道相加。这意味着池化层的输出通道数与输入通道数相等。下面将数组X和X+1在通道维上连结来构造通道数为2的输入。

X = torch.cat((X, X + 1), dim = 1)
X
“””
输出：
tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]],

         [[ 1.,  2.,  3.,  4.],
          [ 5.,  6.,  7.,  8.],
          [ 9., 10., 11., 12.],
          [13., 14., 15., 16.]]]])
“””

池化后，我们发现输出通道数仍然是2。

pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)
“””
输出：
tensor([[[[ 5.,  7.],
        [13., 15.]],

       [[ 6.,  8.],
       [14., 16.]]]])
“””