pytorch读取数据集基本操作(数值型、图片)

一、数值型数据

import torch
from torch.utils.data import TensorDataset, DataLoader, random_split, Dataset
from sklearn import datasets

# 根据Tensor创建数据集
iris = datasets.load_iris()
Tensor_iris = TensorDataset(torch.tensor(iris.data), torch.tensor(iris.target))

# 分割成训练集、验证集、测试集
num_train = int(len(Tensor_iris) * 0.6)
num_valid = int(len(Tensor_iris) * 0.2)
num_test = len(Tensor_iris) - num_train - num_valid
train, valid, test = random_split(Tensor_iris, [num_train, num_valid, num_test])
print(len(train), len(valid), len(test))  # 90 30 30(个数)

# 使用DataLoader加载数据集
train = DataLoader(train, batch_size=16, shuffle=True)
valid = DataLoader(valid, batch_size=16, shuffle=False)
test = DataLoader(test, batch_size=16, shuffle=False)
print(len(train), len(valid), len(test))  # 6 2 2(批数)

数据集直接用的sklearn的鸢尾花数据集。

多特征数值型数据(如上iris.data)

标签(如上iris.target)

二、图片

(1)分类任务图片:

from torch.utils.data import DataLoader, random_split
from torchvision import transforms, datasets

data_transform = transforms.Compose([transforms.Resize((224, 224)), transforms.ToTensor()])

data = datasets.ImageFolder(root="dir", transform=data_transform)

num_train = int(len(data) * 0.6)
num_valid = int(len(data) * 0.2)
num_test = len(data) - num_train - num_valid
train, valid, test = random_split(data, [num_train, num_valid, num_test])

train = DataLoader(train, batch_size=16, shuffle=True)
valid = DataLoader(valid, batch_size=16, shuffle=False)
test = DataLoader(test, batch_size=16, shuffle=False)

data_transform:根据自己的需求进行数据增强。

图片数据集目录例子:dir-----dog

                                        |----cat

                                    dir的下级目录的名要是要分类的标签名,比如我要分类dog、cat,我就把把文件名改成dog、cat,这两个文件夹下是他俩的所有图片数据。

数据集链接Cats-vs-Dogs | Kaggle或csdn搜cats vs dogs,有人传了百度网盘。

(2)分割任务图片:

        分割任务图片用torchvision的transform来数据增强比较麻烦,因为涉及到mask也需要进行转变,因此推荐使用albumentations库来进行数据增强。我一般是把数据增强后的图片数据先存在硬盘里(确保之后的数据不变,而不是每次训练都要重新数据增强),再读入内存进行训练,则需要构建自己的数据集。

        数据增强后的图片数据是用numpy存储的,格式为(batch_size, channels, height, width)。

import torch
import numpy as np
from torch.utils.data import Dataset, DataLoader

class datasets(Dataset):
    def __init__(self, data, label):
        self.length = data.shape[0]
        self.data = data
        self.label = label

    def __getitem__(self, index):
        return self.data[index], self.label[index]

    def __len__(self):
        return self.length

train_data = np.load('XXX')
train_label = np.load('XXX')
train_data = torch.from_numpy(train_data).float()
train_label = torch.from_numpy(train_label).float() #因为这次用的均方误差损失,所以转成浮点数,若为交叉熵损失,则为整型才可以。

train_dataset = datasets(train_data, train_label)
train_loader = DataLoader(train_dataset, batch_size=2, shuffle=True)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值