注:本文参考李沐老师的动手学深度学习第二版,代码是教材上的,我只是调整一些参数,加一些层数看看训练效果。
1.引入库
import torch
from torch import nn
from d2l import torch as d2l
2.构造层数
net = nn.Sequential(nn.Flatten(),nn.Linear(784,512),nn.ReLU(),nn.Linear(512,256),
nn.ReLU(),nn.Linear(256,64),nn.ReLU(),nn.Linear(64,10))#这里有四个全连接层,隐藏层单元数分别为512,256,64
def init_weights(m):
if type(m) == nn.Linear:
nn.init.normal_(m.weight,std=0.01)
net.apply(init_weights);#nn.Linear的weight和bias会自动初始化,这里使用init_weight只是不希望采用对weight的默认初始化,对bias采用默认初始化就可以
3.训练过程
batch_size, lr, num_epochs = 64, 0.1, 10#这里batch_size如果用256的话会特别诡异,可以尝试一下
loss = nn.CrossEntropyLoss(reduction='none')#交叉熵损失函数
trainer = torch.optim.SGD(net.parameters(), lr=lr)#优化方式是随机梯度下降
4.开始训练
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
输出结果为:
训练效果还是比较好的