PyTorch教程数字识别中为什么是 self.fc1 = nn.Linear(1655, 120)一事

后来后来啊

已于 2023-08-19 14:56:57 修改

阅读量443

点赞数 1

文章标签： pytorch 人工智能 python

于 2023-08-19 14:56:24 首次发布

本文链接：https://blog.csdn.net/qq_73462282/article/details/132379863

版权

我在学pytorch写笔记记录时候出现了一个疑惑,就是以下网络结构中

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 5x5 square convolution
        # 输入图片是1 channel输出是6 channel 利用5x5的核大小
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # 全连接 从16 * 4 * 4的维度转成120
        self.fc1 = nn.Linear(16 * 4 * 4, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

为什么全部连接第一层输入是16*5*5,在csdn中查了一番,感觉其他博主说的都没有解决我心中的疑惑,于是问了下我朋友,发现我们掉进了一个陷阱中

首先,在书中给出了网络结构是在这里插入图片描述

虽然他给出了input是32*32,但是人家书中给出的完整代码是

import torch
import torch.nn as nn
import torch.nn.functional as F#可以调用一些常见的函数，例如非线性以及池化等

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 5x5 square convolution
        # 输入图片是1 channel输出是6 channel 利用5x5的核大小
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # 全连接 从16 * 4 * 4的维度转成120
        self.fc1 = nn.Linear(16 * 4 * 4, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
    def forward(self, x):
        # 在(2, 2)的窗口上进行池化
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)#(2,2)也可以直接写成数字2
        x = x.view(-1, self.num_flat_features(x))#将维度转成以batch为第一维 剩余维数相乘为第二维
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x
    def num_flat_features(self, x):
        size = x.size()[1:]  # 第一个维度batch不考虑
        num_features = 1
        for s in size:
            num_features *= s
        return num_features

所以任何以32*32为起点的都是在讨论batch_size,而别人给的代码中给出了x.view,将batch_size提到第一维,其他维数相乘,这里算作Linear层的输入,那为什么其他维数相乘是16*5*5呢?

这是因为在第二层卷积时候,使用了16层卷积核,大小是5*5,所以其他维数相乘就是16*5*5,这个作为输出传入全连接层中

后来后来啊

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
PyTorch教程数字识别中为什么是 self.fc1 = nn.Linear(16*5*5, 120)一事

所以任何以32*32为起点的都是在讨论batch_size,而别人给的代码中给出了x.view,将batch_size提到第一维,其他维数相乘,这里算作Linear层的输入,那为什么其他维数相乘是16*5*5呢?为什么全部连接第一层输入是16*5*5,在csdn中查了一番,感觉其他博主说的都没有解决我心中的疑惑,于是问了下我朋友,发现我们掉进了一个陷阱中。虽然他给出了input是32*32,但是人家书中给出的完整代码是。首先,在书中给出了网络结构是。
复制链接

扫一扫

PyTorch教程数字识别中为什么是 self.fc1 = nn.Linear(16*5*5, 120)一事

“相关推荐”对你有帮助么？

PyTorch教程数字识别中为什么是 self.fc1 = nn.Linear(1655, 120)一事