39_上下采样、MaxPool2d、AvgPool2d、ReLU案例、二维最大池化层和平均池化层、填充和步幅、多通道

1.34.PyTorch Down/up sample (pytorch上下采样)
1.34.1. 首先介绍下采样
1.34.1.1. MaxPool2d案例
1.34.1.2. AvgPool2d案例
1.34.2. F.interpolate案例(上采样)
1.34.3.ReLU案例
1.34.4.Pooling
1.34.4.1.二维最大池化层和平均池化层
1.34.4.2.填充和步幅
1.34.4.3.多通道
1.34.4.4.小结

1.34.PyTorch Down/up sample (pytorch上下采样)

pooling(池化)层原则上为采样操作,与upsample(上采样)不同的是,pooling为下采样操作,即将feature map变小的操作。

那么下采样和上采样是什么含义呢?

1.34.1.首先介绍下采样

在这里插入图片描述
如图所示,将图片上的矩阵由右变向左的操作即为下采样。上图可见是每隔1个元素取一个样,向右方向取了A和B、向下方向取了A和C。这样完成了44矩阵向22矩阵的转化。

而在卷积神经网络中,以max pooling操作为例:
过程如下
在这里插入图片描述

Kernel size为2*2的小窗口,在第一个框内取了最大值6后,向右方向进行了步长为2的移动,在2、4、7、8四个值中取了最大值8。同理再进行向下移动。
与max pooling对应的还有Avg pooling,即取平均数。
比较简单,这里不再赘述。
那么在pytorch中如何完成pooling(下采样)操作。

1.34.1.1.MaxPool2d案例
# -*- coding: UTF-8 -*-

import torch
import torch.nn as nn

# 先定义x
x = torch.rand(1, 16, 28, 28)
# 括号内第一个参数是:窗口的大小,第二个是移动的步长距离
layer = nn.MaxPool2d(2, stride=2)
out1 = layer(x)
print(out1.size())
"""

输出结果:
torch.Size([1, 16, 14, 14])
"""
1.34.1.2.AvgPool2d案例
# -*- coding: UTF-8 -*-

import torch
import torch.nn as nn

# 先定义x
x = torch.rand(1, 16, 28, 28)
# 括号内第一个参数是:窗口的大小,第二个是移动的步长距离
layer = nn.AvgPool2d(2, stride=2)
# 进行Avg pooling的计算
out2 = layer(x)
print(out2.size())
"""
输出结果:
torch.Size([1, 16, 14, 14])
"""

1.34.2.F.interpolate案例(上采样)

同样向上采样的过程为:
在这里插入图片描述

如上图从左至右的过程为上采样过程。上图将原数据进行复制即得到新的数据。
在PyTorch中,代码为:

# -*- coding: UTF-8 -*-

import torch
import torch.nn.functional as F

# 先定义x
x = torch.rand(1, 16, 28, 28)
# 上采样的API为: .interpolate
# 括号内参数为输入的tensor、放大的倍率、模式为紧邻差值法
out = F.interpolate(x, scale_factor=2, mode='nearest')
print(out.size())
"""
输出结果:
torch.Size([1, 16, 56, 56])
"""

Bias和input channel不发生改变,原来的2828放大两倍至5656

1.34.3.ReLU案例

下面再简单扼要的介绍ReLU的效果:
在这里插入图片描述
之前有介绍过ReLU函数时将低于某个阈值的输出全部归为0,高于阈值的线性输出。
上图是使用效果图。将黑色区块全部取消:

# -*- coding: UTF-8 -*-

import torch
import torch.nn as nn

x = torch.rand(1, 16, 28, 28)
layer = nn.ReLU(inplace=True)
out = layer(x)
print(out.size())
"""
在进行ReLU操作,进行inplace操作后,较小值会变为零,但数据的size不会发生改变。
通过这种数据会节省一部分的数据存储量。
输出结果:
torch.Size([1, 16, 28, 28])
"""

1.34.4.Pooling

在这里插入图片描述
一个典型的训练神经网络的步骤是:

  • 定义一个包含一组待学习的参数的神经网络
  • 将数据输入到神经网络中并进行前向传播
  • 根据损失函数计算输出结果与目标值之间的差距
  • 进行梯度反向传播到各个参数
  • 更新网络参数,典型的更新方式是:weight=weight-learning_rate*gradinet

实际图像里,我们感兴趣的物体不会总出现在固定位置:即使我们连续拍摄同一个物体也极有可能出现像素位置上的偏移。这会导致同一个边缘对应的输出可能出现在卷积输出Y中的不同位置,进而对后面的模式识别造成不便。

Pooling层,它的提出是为了缓解卷积层对位置的过度敏感性

1.34.4.1.二维最大池化层和平均池化层

同卷积层一样,池化层每次对输入数据的一个固定形状窗口(又称池化窗口)中的元素计算输出。不同于卷积层里计算输入和核的互相关性,池化层直接计算池化窗口内元素的最大值或者平均值。该运算也分别叫做最大池化或平均池化。在二维最大池化中,池化窗口从输入数组的最左上方开始,按从左往右、从上往下的顺序,依次在输入数组上滑动。当池化窗口滑动到某一位置时,窗口中的输入子数组的最大值即输出数组中相应位置的元素。
在这里插入图片描述

图5.6展示了池化窗口形状为2 × 2的最大池化,阴影部分为第一个输出元素及其计算所使用的输入元素。输出数组的高和宽分别为2,其中的4个元素由取最大值运算max得出:
在这里插入图片描述
二维平均池化的工作原理与二维最大池化类似,但将最大运算符替换成平均运算符。

1.34.4.2.填充和步幅

同卷积层一样,池化层也可以在输入的高和宽两侧的填充并调整窗口的移动步幅来改变输出形状。池化层填充和步幅与卷积层填充和步幅的工作机制一样。我们将通过nn模块里的二维最大池化层MaxPool2d来演示池化层填充和步幅的工作机制。我们先构造一个形状为(1,1,4,4)的输入数据,前两个维度分别是批量和通道。

X = torch.arange(16, dtype=torch.float).view((1, 1, 4, 4))
X
“””
输出结果:
tensor([[[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.]]]])
“””

默认情况下,MaxPool2d实例里步幅和池化窗口形状相同。下面使用形状为(3,3)的池化窗口,默认获得形状为(3,3)的步幅。

pool2d = nn.MaxPool2d(3)
pool2d
“””
输出结果:
tensor([[[[ 5.,  7.],
        [13., 15.]]]])
“””

当然,我们也可以指定非正方形的池化窗口,并分别指定高和宽上的填充和步幅。

pool2d = nn.MaxPool2d((2, 4), padding=(1,2), stride=(2, 3))
pool2d(X)
“””
输出:
tensor([[[[ 1.,  3.],
        [ 9., 11.],
        [13., 15.]]]])
“””
1.34.4.3.多通道

在处理多通道输入数据时,池化层对每个输入通道分别池化,而不是像卷积层那样将各通道的输入按通道相加。这意味着池化层的输出通道数与输入通道数相等。下面将数组X和X+1在通道维上连结来构造通道数为2的输入。

X = torch.cat((X, X + 1), dim = 1)
X
“””
输出:
tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]],

         [[ 1.,  2.,  3.,  4.],
          [ 5.,  6.,  7.,  8.],
          [ 9., 10., 11., 12.],
          [13., 14., 15., 16.]]]])
“””

池化后,我们发现输出通道数仍然是2。

pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)
“””
输出:
tensor([[[[ 5.,  7.],
        [13., 15.]],

       [[ 6.,  8.],
       [14., 16.]]]])
“””
1.34.4.4.小结:

最大池化和平均池化分别取池化窗口中输入元素的最大值和平均值作为输出。
池化层的一个主要作用是缓解卷积层对位置的过度敏感性。
可以指定池化层的填充和步幅。
池化层的输出通道数跟输入通道数相同。

卷积和池化是深度学习中常用的两种基本网络。而ReLU(Rectified Linear Unit)则是一种常用的激活函数。 卷积主要用于图像识别和计算机视觉任务中。它通过将输入的图像数据与一组可学习的滤波器进行卷积操作,提取图像的特征。卷积操作可以有效地减少参数数量,并通过参数共享来保留输入图像的局部空间结构信息。卷积的输出经过ReLU激活函数进行非线性映射,将负值设为0,保留正值,以增加模型的非线性能力。 而池化则用于减小卷积输出的空间尺寸和参数数量,从而减少计算量,降低过拟合风险。常用的池化操作是通过滑动窗口按固定的步长取最大值、平均值等操作,来获得池化的输出。同时,池化操作也能够提取输入特征的重要信息,并保留一定程度的空间不变性。 ReLU激活函数是一种简单而常用的非线性函数。它的定义是:当输入大于0时,输出等于输入;当输入小于等于0时,输出为0。与其他激活函数相比,ReLU具有简单的计算形式和较好的收敛性,可以有效解决梯度消失(Gradient Vanishing)问题,并加速训练过程。此外,ReLU还能更好地保留正值特征,并增加模型的非线性能力。 综上所述,卷积通过卷积操作提取图像特征,ReLU激活函数增加模型非线性能力;池化通过降低空间尺寸和参数数量减小计算量,并提取重要特征。这些的组合在神经网络中发挥重要作用,广泛应用于图像处理和深度学习任务中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

涂作权的博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值