知识点回顾:
- Dataset类的__getitem__和__len__方法(本质是python的特殊方法)
- Dataloader类
- minist手写数据集的了解
作业:了解下cifar数据集,尝试获取其中一张图片
一、首先加载CIFAR数据集
import torch
import torchvision
import torchvision.transforms as transforms
from matplotlib import pyplot as plt
# 定义数据转换
transform = transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])
# 加载训练集
trainset = torchvision.datasets.CIFAR10(
root='./data',
train=True,
download=True,
transform=transform
)
二、创建DataLoader并获取单张图片
# 创建DataLoader
trainloader = torch.utils.data.DataLoader(
trainset,
batch_size=4,
shuffle=True
)
# 获取一个batch的数据
dataiter = iter(trainloader)
images, labels = next(dataiter)
# 显示第一张图片
def imshow(img):
img = img / 2 + 0.5 # 反归一化
npimg = img.numpy()
plt.imshow(np.transpose(npimg, (1, 2, 0)))
plt.show()
imshow(images[0])
print('Label:', trainset.classes[labels[0]])
三、直接通过Dataset获取单张图片
# 直接通过Dataset获取第100张图片
image, label = trainset[100]
# 显示图片
imshow(image)
print('Label:', trainset.classes[label])
说明:
1. Dataset 类的两个核心方法:
- __len__ : 返回数据集大小
- __getitem__ : 根据索引返回单个样本
2. DataLoader 主要参数:
- batch_size : 每次加载的样本数
- shuffle : 是否打乱数据顺序
3. CIFAR-10数据集包含10个类别:
classes = ['airplane', 'automobile', 'bird', 'cat', 'deer',
'dog', 'frog', 'horse', 'ship', 'truck']