理解CNN参数及PyTorch实例,卷积核kernel,层数Channels,步长Stride,填充Padding,池化Pooling,PyTorch中的相关方法,MNIST例子

最新推荐文章于 2024-05-02 17:48:19 发布

涂作权的博客

最新推荐文章于 2024-05-02 17:48:19 发布

阅读量6.2k

点赞数 5

分类专栏： # Pytorch学习笔记 # TensorFlow2\Keras

原文链接：http://guileen.github.io/2019/12/24/understanding-cnn/

版权

Pytorch学习笔记同时被 2 个专栏收录

56 篇文章 18 订阅

订阅专栏

TensorFlow2\Keras

14 篇文章 1 订阅

订阅专栏

本文详细解释了卷积神经网络（CNN）的关键参数，包括卷积核、通道数、步长、填充和池化，并通过PyTorch展示了相关操作。使用MNIST数据集举例说明了CNN层的输出计算方法，以及如何将卷积层展开为全连接层进行前向传播。

摘要由CSDN通过智能技术生成

1.34.理解CNN参数及PyTorch实例
1.34.1.卷积核kernel
1.34.2.层数Channels
1.34.3.步长Stride
1.34.4.填充Padding
1.34.5.池化Pooling
1.34.6.PyTorch中的相关方法
1.34.7.MNIST例子

1.34.理解CNN参数及PyTorch实例

参考地址：http://guileen.github.io/2019/12/24/understanding-cnn/

在实际的项目中，会发现CNN有多个参数需要调整，本文主要目的在于理清各个参数的作用。

1.34.1.卷积核kernel

Kernel，卷积核，有时也称为filter。在迭代过程中，学习的结果就保存在kernel里面。深度学习，学习的就是一个权重。kernel的尺寸越小，计算量越小，一般选择3x3，更小就没有意义了。
在这里插入图片描述
结果是对卷积核与一小块输入数据的点积。

1.34.2.层数Channels

在这里插入图片描述
所有位置的点积构成一个激活层。

如果我们有6个卷积核，我们就会有6个激活层。

1.34.3.步长Stride

在这里插入图片描述
上图是每次向右移动一格，一行结束向下移动一行，所以stride是1x1，如果是移动2格2行则是2x2。

1.34.4.填充Padding

Padding的作用是为了获取图片上下左右边缘的特征。
在这里插入图片描述

1.34.5.池化Pooling

卷积层为了提取特征，但是卷积层提取完特征后特征图层依然很大。为了减少计算量，我们可以用padding的方式来减小特征图层。Pooling的方法有MaxPooling核AveragePooling。
在这里插入图片描述

1.34.6.PyTorch中的相关方法

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode=’zeros’)
torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)
stride默认与kernel_size相等
torch.nn.AvgPool2d(kernel_size, stride=None, padding=0, ceil_mode=False, count_include_pad=True, divisor_override=None)
Tensor.view(*shape) -> Tensor
用于将卷积层展开为全连接层

x = torch.randn(4, 4)
x.size()

“””
输出结果：
torch.Size([4, 4])
“””

y = x.view(16)
y.size()
“””
输出结果：
torch.Size([16])
“””

z = x.view(-1, 8)   # the size -1 is inferred from other dimensions
z.size()
“””
输出结果：
torch.Size([2, 8])
“””

1.34.7.MNIST例子

MNIST 数据集的输入是 1x28x28 的数据集。在实际开发中必须要清楚每一次的输出结构。

我们第一层使用 5x5的卷积核，步长为1，padding为0，28-5+1 = 24，那么输出就是 24x24。计算方法是 (input_size - kernel_size)/ stride + 1。
我们第二层使用 2x2的MaxPool，那么输出为 12x12。
第三层再使用5x5，卷积核，输出则为 12-5+1，即 8x8。
再使用 2x2 MaxPool，输出则为 4x4。
在这里插入图片描述

# -*- coding: UTF-8 -*-

import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    """ConvNet -> Max_Pool -> RELU -> ConvNet -> Max_Pool -> RELU -> FC -> RELU -> FC -> SOFTMAX"""
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 10, 5, 1)
        self.conv2 = nn.Conv2d(10, 20, 5, 1)
        self.fc1 = nn.Linear(4*4*20, 50)
        self.fc2 = nn.Linear(50, 10)

    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.max_pool2d(x, 2, 2)
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x, 2, 2)
        x = x.view(-1, 4*4*20)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return F.log_softmax(x, dim=1)