神经网络NN编程实现,往往需要以下几个步骤:
1)定义NN,初始化NN的参数(权重和偏置)
2)准备好输入数据集
3)让输入通过NN,得到输出
4)计算输出和理想输出的loss
5)采用随机梯度下降方法(SGD),后向传播更新NN的权重和偏置,更新规则:
weight = weight - learning_rate * gradient
下面,将根据这些步骤进行编程:
导入库
import torch import torch.nn as nn import torch.nn.functional as F from torch.autograd import Variable import torch import torchvision import torchvision.transforms as transforms import torch.optim as optim import matplotlib.pyplot as plt import numpy as np
- 1. 定义NN,初始化NN的参数
class Net(nn.Module):
# 定义Net的初始化函数,这个函数定义了该神经网络的基本结构
def __init__(self):
super(Net, self).__init__() # 复制并使用Net的父类的初始化方法,即先运行nn.Module的初始化函数
self.conv1 = nn.Conv2d(3, 6, 5) # 定义conv1函数的是图像卷积函数:输入为图像(3个频道,即RGB图),输出为 6张特征图, 卷积核为5x5正方形
self.conv2 = nn.Conv2d(6, 16, 5) # 定义conv2函数的是图像卷积函数:输入为6张特征图,输出为16张特征图, 卷积核为5x5正方形
self.fc1 = nn.Linear(16 * 5 * 5, 120) # 定义fc1(fullconnect)全连接函数1为线性函数:y = Wx + b,并将16*5*5个节点连接到120个节点上。
self.fc2 = nn.Linear(120, 84) # 定义fc2(fullconnect)全连接函数2为线性函数:y = Wx + b,并将120个节点连接到84个节点上。
self.fc3 = nn.Linear(84, 10) # 定义fc3(fullconnect)全连接函数3为线性函数:y = Wx + b,并将84个节点连接到10个节点上。
# 定义该神经网络的向前传播函数,该函数必须定义,一旦定义成功,向后传播函数也会自动生成(autograd)
def forward(self, x):
x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2)) # 输入x经过卷积conv1之后,经过激活函数ReLU,使用2x2的窗口进行最大池化Max pooling,然后更新到x。
x = F.max_pool2d(F.relu(self.conv2(x)), 2) # 输入x经过卷积conv2之后,经过激活函数ReLU,使用2x2的窗口进行最大池化Max pooling,然后更新到x。
x = x.view(-1, self.num_flat_features(x)) # view函数将张量x变形成一维的向量形式,总特征数并不改变,为接下来的全连接作准备。
x = F.relu(self.fc1(x)) # 输入x经过全连接1,再经过ReLU激活函数,然后更新x
x = F.relu(self.fc2(x)) # 输入x经过全连接2,再经过ReLU激活函数,然后更新x
x = self.fc3(x) # 输入x经过全连接3,然后更新x
return x
# 使用num_flat_features函数计算张量x的总特征量(把每个数字都看出是一个特征,即特征总量),比如x是4*2*2的张量,那么它的特征总量就是16。
def num_flat_features(self, x):
size = x.size()[1:] # 这里为什么要使用[1:],是因为pytorch只接受批输入,也就是说一次性输入好几张图片,那么输入数据张量的维度自然上升到了4维。
# 【1:】让我们把注意力放在后3维上面,是因为 x.size() 会 return [nSamples, nChannels, Height, Width]。我们只需要展开后三项成为一个一维的 tensor。
num_features = 1
for s in size:
num_features *= s
return num_features
这里你可以用下面的代码打印出网络的结构看看:
net = Net() # 以下代码是为了看一下我们需要训练的参数的数量 print(net) params = list(net.parameters()) k = 0 for i in params: l = 1 #i type is <class 'torch.nn.parameter.Parameter'> print("该层的结构:" + str(list(i.size()))) for j in i.size(): l *= j print("参数和:" + str(l)) k = k + l print("总参数和:" + str(k))
这里特别说下在__init__(self)里的 self.fc1 = nn.Linear(16 * 5 * 5, 120) ,为什么输入是16*5*5?
1)有必要提下CIFAR10数据集:
CIFAR10,该数据集共有60000张彩色图像,这些图像是32*32×3(记住这个32*32很重要),分为10个类,每类6000张图。这里面有50000张用于训练,构成了5个训练批,每一批10000张图;另外10000用于测试,单独构成一批。测试批的数据里,取自10类中的每一类,每一类随机取1000张。抽剩下的就随机排列组成了训练批。注意一个训练批中的各类图像并不一定数量相同,总的来看训练批,每一类都有5000张图。