1.完整的模型训练套路:
完成CIFAR10的分类问题
1.1准备数据集:
其实用len去查看数据集的长度已经不是新知识点了。当我们要重写Dataset类的时候,关键需要重写Dataset类的__len__()方法和__getitem__()方法。
train_data = torchvision.datasets.CIFAR10(root="./data", train=True, transform=torchvision.transforms.ToTensor(),
download=True)
test_data = torchvision.datasets.CIFAR10(root="./data", train=False, transform=torchvision.transforms.ToTensor(),
download=True)
train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练集的长度为:{}".format(train_data_size))
print("测试的长度为:{}".format(test_data_size))
1.2利用DataLoader来加载数据集:
# 利用 DataLoader 来加载数据集
train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)
1.3搭建神经网络:
将搭建的网络模型放入单独的一个model.py文件中,并进行验证。
import torch
from torch import nn
# 搭建神经网络
class Tudui(nn.Module):
def __init__(self):
super(Tudui, self).__init__()
self.model = nn.Sequential(
nn.Conv2d(3, 32, 5, 1, padding=2),
nn.MaxPool2d(2),
nn.Conv2d(32, 32, 5, 1, padding=2),
nn.MaxPool2d(2),
nn.Conv2d(32, 64, 5, 1, padding=2),
nn.MaxPool2d(2),
nn.Flatten(),
nn.Linear(64*4*4, 64),
nn.Linear(64, 10)
)
def forward(self, x):
x = self.model(x)
return x
if __name__ == '__main__':
tudui = Tudui()
input=torch.ones((64,3,32,32))
output=tudui(input)
print(output.shape)
1.4创建网络模型:
按住Ctril然后点击类名可以查看源代码。
from model import *
#创建网络模型
tudui = Tudui()
1.5创建损失函数:
#创建损失函数
loss_fn=nn.CrossEntropyLoss()
1.6设置优化器:
推荐使用科学计数法表示学习率。
#定义优化器
learning_rate=1e-2
#learning_rate=0.01
optimizer=torch.optim.SGD(tudui.parameters(),lr=learning_rate)
1.7设置训练网络的一些参数:
#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10
for i in range(epoch):
print("--------第{}轮训练开始----------".format(i+1))
#训练步骤开始
for data in train_dataloader:
imgs, targets = data
outputs = tudui(imgs)
loss = loss_fn(outputs, targets)
#优化器调优
optimizer.zero_grad()
loss.backward()
optimizer.step()
total_train_step=total_train_step+1
print("训练次数:{},loss:{}".format(total_train_step,loss.item()))
2.完整的模型测试:
2.1设置测试部分:
用with torch.no_grad():环境取消梯度。
for i in range(epoch):
print("--------第{}轮训练开始----------".format(i+1))
#训练步骤开始
for data in train_dataloader:
imgs, targets = data
outputs = tudui(imgs)
loss = loss_fn(outputs, targets)
#优化器调优
optimizer.zero_grad()
loss.backward()
optimizer.step()
total_train_step=total_train_step+1
if total_train_step%100==0:
print("训练次数:{},loss:{}".format(total_train_step,loss.item()))
#测试步骤开始
total_test_loss=0
with torch.no_grad():
for data in test_dataloader:
imgs, targets = data
outputs = tudui(imgs)
loss = loss_fn(outputs, targets)
total_test_loss=total_test_loss+loss
print("整体测试集上的Loss:{}".format(total_test_loss))
2.2用tensorboard显示loss的图像:
添加参数
#添加 tensorboard
writer=SummaryWriter("./logs_train")
在训练步骤中添加:
total_train_step=total_train_step+1
if total_train_step%100==0:
print("训练次数:{},loss:{}".format(total_train_step,loss.item()))
writer.add_scalar("train_loss",loss.item(),total_train_step)
在测试步骤后添加:
writer.add_scalar("test_loss",total_test_loss,total_test_step)
total_test_step=total_test_step+1
在for i in range(epoch)循环外添加:
writer.close()
2.3保存训练参数:
在for i in range(epoch)外添加:
torch.save(tudui,"tudui_{}.pth".format(i))
print("模型已保存")
2.4利用torch.argmax函数计算准确率:
- torch.argmax(predictions, dim=0)
- dim=0:沿着行方向(样本方向)获取最大值的索引。
- dim=1:沿着列方向(特征方向)获取最大值的索引。
total_accuracy=0
print("整体测试集上的正确率:{}".format(total_accuracy/test_data_size))
writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)
3.训练细节总结:
- model.train() 和 model.eval ()
- 在官网的torch.nn.Module小节中可以查看train 和eval
- model.train() 将模块设置为训练模式。这只对某些模块有影响,例如Dxopout、BatchNorm等。
- model.eval ()将模块设置为验证模式。这只对某些模块有影响。这等效于self.Train(False)。
- 最好还是加上。
在训练开始前加上.train(),在测试开始前加上.eval()。
4.完整代码
train.py
import tensorboard
import torch
import torchvision
from torch.utils.tensorboard import SummaryWriter
from model import *
from torch import nn
from torch.utils.data import DataLoader
# 准备数据集
train_data = torchvision.datasets.CIFAR10(root="./data", train=True, transform=torchvision.transforms.ToTensor(),
download=True)
test_data = torchvision.datasets.CIFAR10(root="./data", train=False, transform=torchvision.transforms.ToTensor(),
download=True)
train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练集的长度为:{}".format(train_data_size))
print("测试的长度为:{}".format(test_data_size))
# 利用 DataLoader 来加载数据集
train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)
#创建网络模型
tudui = Tudui()
#创建损失函数
loss_fn=nn.CrossEntropyLoss()
#定义优化器
learning_rate=0.01
optimizer=torch.optim.SGD(tudui.parameters(),lr=learning_rate)
#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10
#添加 tensorboard
writer=SummaryWriter("./logs_train")
for i in range(epoch):
print("--------第{}轮训练开始----------".format(i+1))
#训练步骤开始
tudui.train()
for data in train_dataloader:
imgs, targets = data
outputs = tudui(imgs)
loss = loss_fn(outputs, targets)
#优化器调优
optimizer.zero_grad()
loss.backward()
optimizer.step()
total_train_step=total_train_step+1
if total_train_step%100==0:
print("训练次数:{},loss:{}".format(total_train_step,loss.item()))
writer.add_scalar("train_loss",loss.item(),total_train_step)
#测试步骤开始
tudui.eval()
total_test_loss=0
total_accuracy=0
with torch.no_grad():
for data in test_dataloader:
imgs, targets = data
outputs = tudui(imgs)
loss = loss_fn(outputs, targets)
total_test_loss=total_test_loss+loss.item()
accuracy=(outputs.argmax(1)==targets).sum()
total_accuracy=total_accuracy+accuracy
print("整体测试集上的Loss:{}".format(total_test_loss))
print("整体测试集上的正确率:{}".format(total_accuracy/test_data_size))
writer.add_scalar("test_loss",total_test_loss,total_test_step)
writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)
total_test_step=total_test_step+1
torch.save(tudui,"tudui_{}.pth".format(i))
# torch.save(tudui.state_dict(),"tudui_{}.pth".format(i))
print("模型已保存")
writer.close()
model.py
import torch
from torch import nn
# 搭建神经网络
class Tudui(nn.Module):
def __init__(self):
super(Tudui, self).__init__()
self.model = nn.Sequential(
nn.Conv2d(3, 32, 5, 1, padding=2),
nn.MaxPool2d(2),
nn.Conv2d(32, 32, 5, 1, padding=2),
nn.MaxPool2d(2),
nn.Conv2d(32, 64, 5, 1, padding=2),
nn.MaxPool2d(2),
nn.Flatten(),
nn.Linear(64*4*4, 64),
nn.Linear(64, 10)
)
def forward(self, x):
x = self.model(x)
return x
if __name__ == '__main__':
tudui = Tudui()
input=torch.ones((64,3,32,32))
output=tudui(input)
print(output.shape)