完整的模型训练路线

最新推荐文章于 2024-10-01 10:27:22 发布

绿树疯子

最新推荐文章于 2024-10-01 10:27:22 发布

阅读量550

点赞数 7

分类专栏：机器学习文章标签：机器学习深度学习人工智能 pytorch pycharm

本文链接：https://blog.csdn.net/qq_37441377/article/details/141668217

版权

机器学习专栏收录该内容

35 篇文章 0 订阅

订阅专栏

1.完整的模型训练套路：

完成CIFAR10的分类问题

1.1准备数据集:

其实用len去查看数据集的长度已经不是新知识点了。当我们要重写Dataset类的时候，关键需要重写Dataset类的__len__()方法和__getitem__()方法。

train_data = torchvision.datasets.CIFAR10(root="./data", train=True, transform=torchvision.transforms.ToTensor(),
                                          download=True)
test_data = torchvision.datasets.CIFAR10(root="./data", train=False, transform=torchvision.transforms.ToTensor(),
                                         download=True)
train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练集的长度为：{}".format(train_data_size))
print("测试的长度为：{}".format(test_data_size))

1.2利用DataLoader来加载数据集：

# 利用 DataLoader 来加载数据集
train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)

1.3搭建神经网络：

将搭建的网络模型放入单独的一个model.py文件中，并进行验证。

import torch
from torch import nn

# 搭建神经网络
class Tudui(nn.Module):
    def __init__(self):
        super(Tudui, self).__init__()

        self.model = nn.Sequential(
            nn.Conv2d(3, 32, 5, 1, padding=2),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 32, 5, 1, padding=2),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 64, 5, 1, padding=2),
            nn.MaxPool2d(2),
            nn.Flatten(),
            nn.Linear(64*4*4, 64),
            nn.Linear(64, 10)
        )

    def forward(self, x):
        x = self.model(x)
        return x

if __name__ == '__main__':
    tudui = Tudui()
    input=torch.ones((64,3,32,32))
    output=tudui(input)
    print(output.shape)

1.4创建网络模型：

按住Ctril然后点击类名可以查看源代码。

from model import *

#创建网络模型
tudui = Tudui()

1.5创建损失函数：

#创建损失函数
loss_fn=nn.CrossEntropyLoss()

1.6设置优化器：

推荐使用科学计数法表示学习率。

#定义优化器
learning_rate=1e-2
#learning_rate=0.01
optimizer=torch.optim.SGD(tudui.parameters(),lr=learning_rate)

1.7设置训练网络的一些参数：

#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10

for i in range(epoch):
    print("--------第{}轮训练开始----------".format(i+1))

    #训练步骤开始
    for data in train_dataloader:
        imgs, targets = data
        outputs = tudui(imgs)
        loss = loss_fn(outputs, targets)

        #优化器调优
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()


        total_train_step=total_train_step+1
        print("训练次数：{}，loss：{}".format(total_train_step,loss.item()))

在这里插入图片描述

2.完整的模型测试：

2.1设置测试部分：

用with torch.no_grad():环境取消梯度。

for i in range(epoch):
    print("--------第{}轮训练开始----------".format(i+1))

    #训练步骤开始
    for data in train_dataloader:
        imgs, targets = data
        outputs = tudui(imgs)
        loss = loss_fn(outputs, targets)

        #优化器调优
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_train_step=total_train_step+1
        if total_train_step%100==0:
            print("训练次数：{}，loss：{}".format(total_train_step,loss.item()))

    #测试步骤开始
    total_test_loss=0
    with torch.no_grad():
        for data in test_dataloader:
            imgs, targets = data
            outputs = tudui(imgs)
            loss = loss_fn(outputs, targets)
            total_test_loss=total_test_loss+loss
    print("整体测试集上的Loss:{}".format(total_test_loss))

在这里插入图片描述

2.2用tensorboard显示loss的图像：

添加参数

#添加 tensorboard
writer=SummaryWriter("./logs_train")

在训练步骤中添加：

total_train_step=total_train_step+1
        if total_train_step%100==0:
            print("训练次数：{}，loss：{}".format(total_train_step,loss.item()))
            writer.add_scalar("train_loss",loss.item(),total_train_step)

在测试步骤后添加：

writer.add_scalar("test_loss",total_test_loss,total_test_step)
    total_test_step=total_test_step+1

在for i in range(epoch)循环外添加：

writer.close()

在这里插入图片描述

2.3保存训练参数：

在for i in range(epoch)外添加：

torch.save(tudui,"tudui_{}.pth".format(i))
    print("模型已保存")

2.4利用torch.argmax函数计算准确率：

torch.argmax(predictions, dim=0)
- dim=0：沿着行方向（样本方向）获取最大值的索引。
- dim=1：沿着列方向（特征方向）获取最大值的索引。

total_accuracy=0

print("整体测试集上的正确率：{}".format(total_accuracy/test_data_size))

writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)

在这里插入图片描述

3.训练细节总结：

model.train() 和 model.eval ()
- 在官网的torch.nn.Module小节中可以查看train 和eval
- model.train() 将模块设置为训练模式。这只对某些模块有影响，例如Dxopout、BatchNorm等。
- model.eval ()将模块设置为验证模式。这只对某些模块有影响。这等效于self.Train(False)。
- 最好还是加上。

在训练开始前加上.train()，在测试开始前加上.eval()。

4.完整代码

train.py

import tensorboard
import torch
import torchvision
from torch.utils.tensorboard import SummaryWriter

from model import *
from torch import nn
from torch.utils.data import DataLoader

# 准备数据集
train_data = torchvision.datasets.CIFAR10(root="./data", train=True, transform=torchvision.transforms.ToTensor(),
                                          download=True)
test_data = torchvision.datasets.CIFAR10(root="./data", train=False, transform=torchvision.transforms.ToTensor(),
                                         download=True)
train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练集的长度为：{}".format(train_data_size))
print("测试的长度为：{}".format(test_data_size))

# 利用 DataLoader 来加载数据集
train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)

#创建网络模型
tudui = Tudui()

#创建损失函数
loss_fn=nn.CrossEntropyLoss()

#定义优化器
learning_rate=0.01
optimizer=torch.optim.SGD(tudui.parameters(),lr=learning_rate)

#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10

#添加 tensorboard
writer=SummaryWriter("./logs_train")


for i in range(epoch):
    print("--------第{}轮训练开始----------".format(i+1))

    #训练步骤开始
    tudui.train()
    for data in train_dataloader:
        imgs, targets = data
        outputs = tudui(imgs)
        loss = loss_fn(outputs, targets)

        #优化器调优
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_train_step=total_train_step+1
        if total_train_step%100==0:
            print("训练次数：{}，loss：{}".format(total_train_step,loss.item()))
            writer.add_scalar("train_loss",loss.item(),total_train_step)

    #测试步骤开始
    tudui.eval()
    total_test_loss=0
    total_accuracy=0
    with torch.no_grad():
        for data in test_dataloader:
            imgs, targets = data
            outputs = tudui(imgs)
            loss = loss_fn(outputs, targets)
            total_test_loss=total_test_loss+loss.item()
            accuracy=(outputs.argmax(1)==targets).sum()
            total_accuracy=total_accuracy+accuracy

    print("整体测试集上的Loss:{}".format(total_test_loss))
    print("整体测试集上的正确率：{}".format(total_accuracy/test_data_size))
    writer.add_scalar("test_loss",total_test_loss,total_test_step)
    writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)

    total_test_step=total_test_step+1

    torch.save(tudui,"tudui_{}.pth".format(i))
    # torch.save(tudui.state_dict(),"tudui_{}.pth".format(i))
    print("模型已保存")

writer.close()

model.py

import torch
from torch import nn

# 搭建神经网络
class Tudui(nn.Module):
    def __init__(self):
        super(Tudui, self).__init__()

        self.model = nn.Sequential(
            nn.Conv2d(3, 32, 5, 1, padding=2),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 32, 5, 1, padding=2),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 64, 5, 1, padding=2),
            nn.MaxPool2d(2),
            nn.Flatten(),
            nn.Linear(64*4*4, 64),
            nn.Linear(64, 10)
        )

    def forward(self, x):
        x = self.model(x)
        return x

if __name__ == '__main__':
    tudui = Tudui()
    input=torch.ones((64,3,32,32))
    output=tudui(input)
    print(output.shape)