Pytorch深度学习加载数据集的方式

一.数据集的加载 

数据集有官方数据集和自己的数据集两种,对于不同的数据集加载方式有差别,大致如下:

1.对于官方数据集,即可以通过torchvision.datasets后面加点的方式获取数据集名称的这种数据集,如CIFAR10:

torchvision.datasets.CIFAR10(root='./data', train=True,
                                         download=False, transform=transform)

它的训练集和验证集加载可以通过torchvision.datasets.CIFAR10(root=xxx,.......) + torch.utils.data.DataLoader()的方式进行加载,代码如下:

# 训练集的设置及其DataLoader

train_set = torchvision.datasets.CIFAR10(root='./data', train=True,
                                         download=False, transform=transform)
train_loader = torch.utils.data.DataLoader(train_set, batch_size=36,
                                           shuffle=True, num_workers=0)

# 验证集的设置及其DataLoader

val_set = torchvision.datasets.CIFAR10(root='./data', train=False,
                                       download=False, transform=transform)
val_loader = torch.utils.data.DataLoader(val_set, batch_size=5000,
                                         shuffle=False, num_workers=0)

2.对于自己通过建立多个文件夹、每个文件夹放一类图片且文件夹的名称既是该类的名称来得到的自己的数据集,使用torchvision.datasets后面加点的方式是无法访问得到的,这时可以选择torchvision.datasets.ImageFolder来加载数据集,即通过添加数据集文件夹所在绝对路径来进行数据集的加载的。下面代码的路径是我的数据集文件夹train所在的绝对路径,后面的transform是提前设置好的transform。

train_dataset = torchvision.datasets.ImageFolder(root=”F:\data_set\flower_data\train”),
                                     transform=transform)

ImageFolder就是一个通用的data loader,而这个data loader加载数据集的方式就是通过路径,所以ImageFolder代替了torchvision.datasets.CIFAR10这类指定数据集的操作。需要注意的是,给ImageFolder后面的第一个参数root指定根路径时,我的编译器需要写的是图片所在文件夹的绝对路径。完整代码:

# 训练集的设置及其DataLoader

train_dataset = torchvision.datasets.ImageFolder(root=”F:\data_set\flower_data\train”),
                                     transform=train_transform)

train_loader = torch.utils.data.DataLoader(train_dataset,
                                           batch_size=batch_size, shuffle=True,
                                           num_workers=num)



# 验证集的设置及其DataLoader

validate_dataset = datasets.ImageFolder(root=”F:\data_set\flower_data\val”),         
                                        transform=val_transform)

validate_loader = torch.utils.data.DataLoader(validate_dataset,
                                              batch_size=4, shuffle=False,
                                              num_workers=nw)

二.关于类别json文件的生成

我的训练集文件夹分类如下图所示:

 类别信息生成json文件的代码如下:

# flower_list = {'daisy':0, 'dandelion':1, 'roses':2, 'sunflower':3, 'tulips':4}
flower_list = train_dataset.class_to_idx #将各类别名称及其文件夹顺序索引做成一个字典

# cla_dict = {0: 'daisy', 1: 'dandelion', 2: 'roses', 3: 'sunflowers', 4: 'tulips'}
cla_dict = dict((val, key) for key, val in flower_list.items()) # 交换key和value的位置

# write dict into json file 
json_str = json.dumps(cla_dict, indent=4)

with open('class_indices.json', 'w') as json_file: # 写json文件
    json_file.write(json_str)

json_str = json.dumps(cla_dict, indent=4)将字典写成json字符串以便存入json文件,所存的json文件如下:

这样类别的内容显示更见直观,参数indent表示每一个字典item前面的空格数量,即"0": "daisy"前面空了4个空格,后面的也是如此。

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch是一个用于深度学习的开源框架,它提供了一组工具和接口,使得我们可以轻松地进行模型训练、预测和部署。在PyTorch中,数据处理是深度学习应用的重要部分之一。 PyTorch中的数据处理主要涉及以下几个方面: 1.数据预处理:包括数据清洗、数据归一化、数据增强等操作,以提高模型的鲁棒性和泛化能力。 2.数据PyTorch提供了多种数据方式,包括内置的数据集、自定义的数据集和数据器等,以便我们更好地管理和使用数据。 3.数据可视化:为了更好地理解数据和模型,PyTorch提供了多种数据可视化工具,如Matplotlib、TensorBoard等。 下面是一个简单的数据预处理示例,展示如何将图像进行归一化和数据增强: ```python import torch import torchvision.transforms as transforms from torchvision.datasets import CIFAR10 # 定义一个数据预处理管道 transform_train = transforms.Compose([ transforms.RandomCrop(32, padding=4), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.2023, 0.1994, 0.2010]) ]) # CIFAR10数据集,进行预处理 trainset = CIFAR10(root='./data', train=True, download=True, transform=transform_train) trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2) ``` 在上面的例子中,我们首先定义了一个数据预处理管道,其中包括了对图像进行随机裁剪、水平翻转、归一化等操作。然后,我们使用PyTorch内置的CIFAR10数据集,并将其预处理后,使用DataLoader进行批量。这个过程可以帮助我们更好地管理和使用数据,同时提高模型的训练效率和泛化能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值