前言
在做kaggle叶子分类竞赛的时候,我发现我无法完整的布置一个项目尤其是对dataloader无法自我部署,包括数据预处理方面。我看了几篇博客,其实最重要的就是dataloader的书写。所以我暂时放弃了kaggle,专心将计算机视觉的相关学完后再去做沐神创办的竞赛。
数据增广
就是增强,为了是增大数据集添加噪音更好的泛化之类的操作。
代码实现
对他所有的每个项目的部署进行分解。
pytorch中加载数据的顺序是:
①创建一个dataset对象
②创建一个dataloader对象
③循环dataloader对象,将data,label拿到模型中去训练
1.加载数据集dataset
加载数据集并随机打印32个
all_images = torchvision.datasets.CIFAR10(
train=True, root="../data", download=True)
d2l.show_images([
all_images[i][0] for i in range(32)], 4, 8, scale=0.8);
2.数据增广
#totensor将他变成4d的矩阵
train_augs = torchvision.transforms.Compose([
torchvision.transforms.RandomHorizontalFlip(),
torchvision.transforms.ColorJitter(brightness=0.5, contrast=0, saturation=0, hue=0),
torchvision.