使用ViT(Vision transformer)来训练Cifar10数据集
下面的代码是使用ViT训练Cifar10数据集的demo。
"""
特征提取的实例:
利用迁移学习中特征提取的方法来对CIFAR-10数据集实现对10类无体的分类
"""
import torch
from torch import nn
import torchvision
import torchvision.transforms as transforms
from datetime import datetime
import matplotlib.pyplot as plt
import numpy as np
from vit_pytorch import ViT, SimpleViT
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
def main():
# 加载和预处理数据集
trans_train = transforms.Compose(
[transforms.RandomResizedCrop(224), # 将给定图像随机裁剪为不同的大小和宽高比,然后缩放所裁剪得到的图像为制定的大小;
# (即先随机采集,然后对裁剪得到的图像缩放为同一大小) 默认scale=(0.08, 1.0)
transforms.RandomHorizontalFlip(), # 以给定的概率随机水平旋转给定的PIL的图像,默认为0.5;
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])])
trans_valid = transforms.Compose(
[transforms.Resize(256), # 是按照比例把图像最小的一个边长放缩到256,另一边按照相同比例放缩。
transforms.CenterCrop(224), # 依据给定的size从中心裁剪
transforms.ToTensor(), # 将PIL Image或者 ndarray 转换为tensor,并且归一化至[0-1]
# 归一化至[0-1]是直接除以255,若自己的ndarray数据尺度有变化,则需要自行修改。
transforms.Normalize(mean=[0.485, 0.456, 0.406]</