pytorch学习日记（一）——之CIFAR10图像训练测试实战

最新推荐文章于 2024-08-01 15:32:59 发布

虾米儿xia

最新推荐文章于 2024-08-01 15:32:59 发布

阅读量9.6k

点赞数 49

分类专栏： pytorch 文章标签： pytorch CNN CIFAR10图像

本文链接：https://blog.csdn.net/m0_37673307/article/details/81268222

版权

这篇博客详细介绍了使用PyTorch实现CIFAR10图像分类的过程，包括神经网络结构设计、参数初始化、数据准备、损失计算及权重更新。文章解释了Conv2d层参数含义，并计算了各层输出尺寸。通过训练，模型在测试集上达到57%的准确率。

摘要由CSDN通过智能技术生成

神经网络NN编程实现，往往需要以下几个步骤：

1）定义NN，初始化NN的参数（权重和偏置）

2）准备好输入数据集

3）让输入通过NN，得到输出

4）计算输出和理想输出的loss

5）采用随机梯度下降方法（SGD），后向传播更新NN的权重和偏置，更新规则：

weight = weight - learning_rate * gradient

下面，将根据这些步骤进行编程：

导入库

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.autograd import Variable
import torch
import torchvision
import torchvision.transforms as transforms
import torch.optim as optim
import matplotlib.pyplot as plt
import numpy as np

1. 定义NN，初始化NN的参数

class Net(nn.Module):
    # 定义Net的初始化函数，这个函数定义了该神经网络的基本结构
    def __init__(self):
        super(Net, self).__init__()  # 复制并使用Net的父类的初始化方法，即先运行nn.Module的初始化函数
        self.conv1 = nn.Conv2d(3, 6, 5)  # 定义conv1函数的是图像卷积函数：输入为图像（3个频道，即RGB图）,输出为 6张特征图, 卷积核为5x5正方形
        self.conv2 = nn.Conv2d(6, 16, 5)  # 定义conv2函数的是图像卷积函数：输入为6张特征图,输出为16张特征图, 卷积核为5x5正方形
        self.fc1 = nn.Linear(16 * 5 * 5, 120)  # 定义fc1（fullconnect）全连接函数1为线性函数：y = Wx + b，并将16*5*5个节点连接到120个节点上。
        self.fc2 = nn.Linear(120, 84)  # 定义fc2（fullconnect）全连接函数2为线性函数：y = Wx + b，并将120个节点连接到84个节点上。
        self.fc3 = nn.Linear(84, 10)  # 定义fc3（fullconnect）全连接函数3为线性函数：y = Wx + b，并将84个节点连接到10个节点上。

    # 定义该神经网络的向前传播函数，该函数必须定义，一旦定义成功，向后传播函数也会自动生成（autograd）
    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))  # 输入x经过卷积conv1之后，经过激活函数ReLU，使用2x2的窗口进行最大池化Max pooling，然后更新到x。
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)  # 输入x经过卷积conv2之后，经过激活函数ReLU，使用2x2的窗口进行最大池化Max pooling，然后更新到x。
        x = x.view(-1, self.num_flat_features(x))  # view函数将张量x变形成一维的向量形式，总特征数并不改变，为接下来的全连接作准备。
        x = F.relu(self.fc1(x))  # 输入x经过全连接1，再经过ReLU激活函数，然后更新x
        x = F.relu(self.fc2(x))  # 输入x经过全连接2，再经过ReLU激活函数，然后更新x
        x = self.fc3(x)  # 输入x经过全连接3，然后更新x
        return x

    # 使用num_flat_features函数计算张量x的总特征量（把每个数字都看出是一个特征，即特征总量），比如x是4*2*2的张量，那么它的特征总量就是16。
    def num_flat_features(self, x):
        size = x.size()[1:]  # 这里为什么要使用[1:],是因为pytorch只接受批输入，也就是说一次性输入好几张图片，那么输入数据张量的维度自然上升到了4维。
        # 【1:】让我们把注意力放在后3维上面,是因为 x.size() 会 return [nSamples, nChannels, Height, Width]。我们只需要展开后三项成为一个一维的 tensor。
        num_features = 1
        for s in size:
            num_features *= s
        return num_features

这里你可以用下面的代码打印出网络的结构看看：

net = Net()
# 以下代码是为了看一下我们需要训练的参数的数量
print(net)

params = list(net.parameters())
k = 0
for i in params:
     l = 1
     #i type is <class 'torch.nn.parameter.Parameter'>
     print("该层的结构：" + str(list(i.size())))
     for j in i.size():
         l *= j
     print("参数和：" + str(l))
     k = k + l

print("总参数和：" + str(k))

这里特别说下在__init__(self)里的 self.fc1 = nn.Linear(16 * 5 * 5, 120) ，为什么输入是16*5*5？

1）有必要提下CIFAR10数据集：

CIFAR10，该数据集共有60000张彩色图像，这些图像是32*32×3（记住这个32*32很重要），分为10个类，每类6000张图。这里面有50000张用于训练，构成了5个训练批，每一批10000张图；另外10000用于测试，单独构成一批。测试批的数据里，取自10类中的每一类，每一类随机取1000张。抽剩下的就随机排列组成了训练批。注意一个训练批中的各类图像并不一定数量相同，总的来看训练批，每一类都有5000张图。