【Pytorch】torch加载数据(1)

最新推荐文章于 2024-04-16 20:51:06 发布

sdbhewfoqi

最新推荐文章于 2024-04-16 20:51:06 发布

阅读量1k

点赞数 1

分类专栏： Tensorflow & Pytorch

本文链接：https://blog.csdn.net/weixin_31866177/article/details/118276581

版权

Tensorflow & Pytorch 专栏收录该内容

41 篇文章 7 订阅

订阅专栏

一、torch如何加载数据 Dataset

二、DataLoader的使用

一、torch如何加载数据 Dataset

两个类

Dataset:提供一种方式去获取数据及其label，读取数据用。

如何获取每一个数据及其label
总共有多少个数据

Dataloader:为后面的网络提供不用的数据形式，送入模型里，batchsize时用。

from torch.utils.data import Dataset

help(Dataset)

Help on class Dataset in module torch.utils.data.dataset:

class Dataset(builtins.object)
| An abstract class representing a :class:`Dataset`.
|
| All datasets that represent a map from keys to data samples should subclass
| it. All subclasses should overrite :meth:`__getitem__`, supporting fetching a
| data sample for a given key. Subclasses could also optionally overwrite
| :meth:`__len__`, which is expected to return the size of the dataset by many
| :class:`~torch.utils.data.Sampler` implementations and the default options
| of :class:`~torch.utils.data.DataLoader`.
|
| .. note::
| :class:`~torch.utils.data.DataLoader` by default constructs a index
| sampler that yields integral indices. To make it work with a map-style
| dataset with non-integral indices/keys, a custom sampler must be provided.
|
| Methods defined here:
|
| __add__(self, other)
|
| __getitem__(self, index)
|
| ----------------------------------------------------------------------
| Data descriptors defined here:
|
| __dict__
| dictionary for instance variables (if defined)
|
| __weakref__
| list of weak references to the object (if defined)

需要重写__getitem__(), __len__()方法。

# 例子，读取图片和图片label
class MyData(Dataset): # 继承Dataset类
    # 重写类方法，记住我的目标是读取图片和图片label
    def __init__(self,):
        
    def __getitem__(self,):

    def ——len__(self,):

创建实例，读取内容

from torch.utils.data import Dataset, DataLoader
from PIL import Image
import os
from torchvision import transforms

class MyData(Dataset):

    def __init__(self, root_dir, image_dir, label_dir, transform=None):
        self.root_dir = root_dir
        self.image_dir = image_dir
        self.label_dir = label_dir
        self.label_path = os.path.join(self.root_dir, self.label_dir)
        self.image_path = os.path.join(self.root_dir, self.image_dir)
        self.image_list = os.listdir(self.image_path)
        self.label_list = os.listdir(self.label_path)
        self.transform = transform
        # 因为label 和 Image文件名相同，进行一样的排序，可以保证取出的数据和label是一一对应的
        self.image_list.sort()
        self.label_list.sort()

    def __getitem__(self, idx):
        img_name = self.image_list[idx]
        label_name = self.label_list[idx]
        img_item_path = os.path.join(self.root_dir, self.image_dir, img_name)
        label_item_path = os.path.join(self.root_dir, self.label_dir, label_name)
        img = Image.open(img_item_path)
        with open(label_item_path, 'r') as f:
            label = f.readline()

        if self.transform:
            img = transform(img)


        return img, label

    def __len__(self):
        assert len(self.image_list) == len(self.label_list)
        return len(self.image_list)


transform = transforms.Compose([transforms.Resize(400), transforms.ToTensor()])
root_dir = "dataset/train"
image_ants = "ants_image"
label_ants = "ants_label"
ants_dataset = MyData(root_dir, image_ants, label_ants, transform=transform)
image_bees = "bees_image"
label_bees = "bees_label"
bees_dataset = MyData(root_dir, image_bees, label_bees, transform=transform)

二、DataLoader的使用

dataloader每次去dataset中取数据。dataset告诉程序数据在什么地方，第一张、第二张数据是什么。

import torchvision

# 准备的测试数据集
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

test_data = torchvision.datasets.CIFAR10("./dataset", train=False, transform=torchvision.transforms.ToTensor())

test_loader = DataLoader(dataset=test_data, batch_size=64, shuffle=True, num_workers=0, drop_last=True)

# 测试数据集中第一张图片及target
img, target = test_data[0]
print(img.shape)
print(target)

writer = SummaryWriter("dataloader")
for epoch in range(2):
    step = 0

    ## 读取测试集中的数据!!!
    for data in test_loader:
        imgs, targets = data
        # print(imgs.shape)
        # print(targets)
        writer.add_images("Epoch: {}".format(epoch), imgs, step)
        step = step + 1

writer.close()

sdbhewfoqi

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
【Pytorch】torch加载数据(1)

目录一、torch如何加载数据 Dataset二、DataLoader的使用一、torch如何加载数据 Dataset两个类Dataset:提供一种方式去获取数据及其label，读取数据用。如何获取每一个数据及其label 总共有多少个数据Dataloader:为后面的网络提供不用的数据形式，送入模型里，batchsize时用。from torch.utils.data import Datasethelp(Dataset)Help on class Datas...
复制链接

扫一扫