机器学习数据集以及下载方式收集
记录一些常用的数据集,以及下载方式
1. 图像类数据集
1. 1 MNIST数据集 (LeCun et al., 1998)
1.2 Fashion-MNIST数据集 (Xiao et al., 2017)
Fashion-MNIST由10个类别的图像组成, 每个类别由训练数据集(train dataset)中的6000张图像 和测试数据集(test dataset)中的1000张图像组成。 因此,训练集和测试集分别包含60000和10000张图像。 测试数据集不会用于训练,只用于评估模型性能。
%matplotlib inline
import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l
d2l.use_svg_display()
# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式,
# 并除以255使得所有像素的数值均在0~1之间
trans = transforms.ToTensor()
mnist_train = torchvision.datasets.FashionMNIST(
root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
root="../data", train=False, transform=trans, download=True)
len(mnist_train), len(mnist_test)
(60000, 10000)
数据大概如下图所示
作者PS:这个图片数据集,没有将单个图片分别存储,而是做成了类似压缩包的方式,方便拷贝。也防止了小文件难以移动的问题
资料来源:https://zh.d2l.ai/chapter_linear-networks/image-classification-dataset.html