【神经网络】03 - (最大)池化层

本文详细介绍了池化层在卷积神经网络中的作用,包括降维、特征提取、平移不变性和泛化能力提升。特别关注了PyTorch中的MaxPool2d模块,以及如何在实际项目中使用它进行二维最大池化操作。
摘要由CSDN通过智能技术生成

概念

池化层是一种用于减少特征图(feature map)大小的层级。它通过对输入的特征图进行某种形式的聚合操作,例如最大池化或平均池化,从而降低了特征图的空间维度,减少了参数数量和计算负担。

池化层的作用有以下几点:

  1. 降维和减少计算量:通过池化操作,可以减少后续层级的输入数据量,从而降低整体模型的计算负担,提升计算效率。
  2. 保留重要特征:池化层可以在保留重要信息的同时减少不必要的细节,有助于网络对于输入数据的关键特征进行提取。
  3. 平移不变性:池化层对输入特征图的小平移具有一定的不变性,即使输入图像稍微移动,经过池化层后的输出也不会发生明显变化。
  4. 提升模型的泛化能力:通过降低维度和提取关键特征,池化层有助于减少过拟合风险,提升模型的泛化能力。

总的来说,池化层在卷积神经网络中起到了对特征进行降维和抽象表示的作用,有助于网络有效地学习和提取输入数据中的关键信息。

torch.nn.MaxPool2d 是 PyTorch 中用于二维最大池化操作的模块,以下是创建二维最大池化层对象时的参数:

  1. kernel_size: 这是指池化窗口的大小,也就是在进行最大池化操作时每次取最大值的窗口大小。
  2. stride: 这是指池化窗口在输入数据上移动的步长。默认值:步长与池化窗口大小相同。
  3. padding: 这是指在进行池化操作之前,对输入数据进行的填充操作。填充可以在窗口周围添加额外的值,以便更好地处理边界情况。
  4. dilation: 这个参数控制着窗口中元素的步幅。增加 dilation 可以使得池化操作在输入上更加稀疏。
    dilation
  5. return_indices: 如果设置为 True,MaxPool2d 操作将会返回每个最大值的索引,这对后续的 torch.nn.MaxUnpool2d 操作很有用。
  6. ceil_mode: 当设置为 True 时,输出形状的计算会使用 ceil 而不是 floor,这可能会导致输出形状稍微增加。(ceil向上取整,floor向下取整)

img

img

示例

import torch
from torch import nn
input = torch.tensor([[1, 2, 0, 3, 1],
                      [0, 1, 2, 3, 1],
                      [1, 2, 1, 0, 0],
                      [5, 2, 3, 1, 1],
                      [2, 1, 0, 1, 1]])

input = torch.reshape(input, (-1, 1, 5, 5))
# shape参数:其中 -1 表示该维度的大小由其他维度和原始张量的总元素个数推断而来。
# 因此,这里将原始的二维张量转换成了一个四维张量,第一个维度大小为 1,
# 第二个维度大小为 1,后面两个维度大小为 5,对应于原始张量的行和列。
print(input.shape)
print(input)


class MyMaxPool(nn.Module):
    def __init__(self):
        super(MyMaxPool, self).__init__()
        self.maxpool1 = nn.MaxPool2d(kernel_size=3, ceil_mode=False)

    def forward(self, input):
        output = self.maxpool1(input)
        return output

mymaxpool = MyMaxPool()
output = mymaxpool(input)
print(output)

img

img

import torch
import torchvision
from torch import nn
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

dataset = torchvision.datasets.CIFAR10(root='./dataset', train=False, download=True,
                                       transform=torchvision.transforms.ToTensor())
dataloader = DataLoader(dataset, batch_size=64)


class MyMaxPool(nn.Module):
    def __init__(self):
        super(MyMaxPool, self).__init__()
        self.maxpool1 = nn.MaxPool2d(kernel_size=3, ceil_mode=False)

    def forward(self, input):
        output = self.maxpool1(input)
        return output


writer = SummaryWriter("logs_maxpool")
step = 0
mymaxpool = MyMaxPool()
for data in dataloader:
    imgs, targets = data
    writer.add_images("input", imgs, step)
    output = mymaxpool(imgs)
    writer.add_images("output", imgs, temp)
    step += 1

writer.close()

使用tensorboard展示一下input和output。

img

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
很抱歉,作为语言模型,我无法生成图片。但是,我可以给你描述每一的输入输出尺寸和参数数量: 1. 输入:输入数据的尺寸为 (batch_size, input_height, input_width, input_channels)。 2. Reshape:将输入数据 reshape 成 (batch_size, input_height, input_width, input_channels),输出尺寸与输入尺寸相同。 3. 卷积:使用 n 个大小为 (kernel_height, kernel_width, input_channels, output_channels) 的卷积核对输入数据进行卷积操作,其中 n 是卷积核的数量。卷积操作后,输出数据的尺寸为 (batch_size, output_height, output_width, output_channels),其中 output_height 和 output_width 取决于卷积核、步长和填充方式。卷积的参数数量为 (kernel_height * kernel_width * input_channels + 1) * output_channels。 4. 池化层:对输入数据进行池化操作,通常使用最大池化或平均池化。池化操作后,输出数据的尺寸为 (batch_size, output_height, output_width, input_channels),其中 output_height 和 output_width 取决于池化核和步长。池化层没有可训练的参数。 5. 卷积:同第 3 卷积。 6. 池化层:同第 4 池化层。 7. Flatten:将输入数据展开成一维张量,输出尺寸为 (batch_size, flattened_size),其中 flattened_size 是展开后的元素个数,等于 output_height * output_width * output_channels。 8. 全连接:将输入数据与权重矩阵相乘,并加上偏置向量,然后使用激活函数对结果进行非线性变换。输出尺寸为 (batch_size, num_units),其中 num_units 是全连接的神经元数量。全连接的参数数量为 flattened_size * num_units + num_units。 9. 输出:将全连接的输出数据与权重矩阵相乘,并加上偏置向量,然后使用 Softmax 函数对结果进行归一化,得到每个类别的概率分布。输出尺寸为 (batch_size, num_classes),其中 num_classes 是类别数量。输出的参数数量为 num_units * num_classes + num_classes。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值