Pytorch_训练简单分类器

训练分类器

训练一个图像分类器

  1. 使用torchvision加载和归一化CIFAR10训练集和测试集
  2. 定义一个卷积神经网络
  3. 定义损失函数
  4. 在训练集上训练网络
  5. 在测试集上测试网络

torchvision输出的是[0,1]的PILImage图像,归一化范围是[-1, 1]的张量

%matplotlib inline

定义损失函数和优化器
损失函数使用交叉熵,使用随机梯度下降

import torch
import torchvision
from torchvision import transforms
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x


class Run(object):
    '''docstring for Run'''

    def __init__(self):
        super(Run, self).__init__()

    def train(self, epoch):
        model.train()
        criterion = nn.CrossEntropyLoss()
        optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
        for epoch in range(epoch):
            running_loss = 0
            for i, data in enumerate(trainloader, 0):
                inputs, labels = data
                optimizer.zero_grad()
                outputs = model(inputs)
                loss = criterion(outputs, labels)
                loss.backward()
                optimizer.step()

                # 打印状态信息
                running_loss += loss.item()
                if i % 2000 == 0:
                    print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 2000))
                    running_loss = 0
        print('training finshed')


if __name__ == '__main__':
    transform = transforms.Compose([transforms.ToTensor(),
                                    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

    trainset = torchvision.datasets.CIFAR10(root='.//data//', train=True, download=True, transform=transform)
    trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)

    testset = torchvision.datasets.CIFAR10(root='.//data//', train=False, download=True, transform=transform)
    testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)

    classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
    model = Net()
    r = Run()
    r.train(2)

Files already downloaded and verified
Files already downloaded and verified
[1,     1] loss: 0.001
[1,  2001] loss: 2.090
[1,  4001] loss: 1.978
[1,  6001] loss: 1.981
[1,  8001] loss: 2.001
[1, 10001] loss: 1.973
[1, 12001] loss: 1.988
[2,     1] loss: 0.001
[2,  2001] loss: 2.010
[2,  4001] loss: 1.989
[2,  6001] loss: 2.014
[2,  8001] loss: 2.040
[2, 10001] loss: 2.011
[2, 12001] loss: 2.032
training finshed
pytorch_pretrained_vit 是 PyTorch 所提供的预训练视觉 Transformer(Vision Transformer, ViT)模型。ViT 模型是 Google Brain 团队在 2021 年提出的一种基于 Transformer 的神经网络,用于图像分类和其他图像相关任务。该模型的核心思想是将图像数据拆分成一组小的图像块,然后将这些小块按顺序展开成一个序列。随后,通过 Transformer 的编码器模块学习序列内的特征,并在最后加上一个全局池化层作为分类器pytorch_pretrained_vit 对 ViT 模型进行了预训练,使得模型具有先验的能力,在面对相似的任务时表现更好。目前已经有多个不同大小的 ViT 模型在 pytorch_pretrained_vit 中提供,同时还提供了从其他数据集转移学习到 ImageNet 数据集的预训练模型。用户可以通过 pytorch_pretrained_vit 对这些已经预训练好的模型进行 fine-tuning,以适应自己的任务。 与其他基于卷积神经网络的图像分类算法相比,ViT 模型的表现更加优越,这归功于其全局建模能力。通过展开图像块并学习它们之间的交互关系,ViT 模型可以更好地建模图像中的高层次结构,如物体的组成和位置等。同时,ViT 模型还具有更少的参数,同时能够匹配最新的 CNN 模型的表现。 总的来说,pytorch_pretrained_vit 为图像相关任务提供了先进的预训练模型,这些模型在各种任务上表现都非常出色。对于需要处理大规模图像数据集并且需要更好的全局建模能力的任务来说,ViT 模型是一个非常有用的选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值