Week2：[任务一] 第一节 DataLoader与DataSet

最新推荐文章于 2023-11-08 14:34:08 发布

夏目学习

最新推荐文章于 2023-11-08 14:34:08 发布

阅读量175

点赞数 1

分类专栏： Pytorch框架学习

本文链接：https://blog.csdn.net/qq_42261092/article/details/119419226

版权

Pytorch框架学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

【目录】

数据处理工作架构框图

数据读取流程图

1、数据处理工作架构框图

DataLoader(数据迭代器)由Sampler和DataSet组成

Sampler的功能是生成索引，DataSet是根据索引去读取图片以及标签

2、数据读取流程图

首先在for循环中使用DataLoader，然后使用DataLoaderIter决定使用单进程还是多进程读取数据，接着使用Sampler获取索引Index。拿到索引后给到DatasetFetcher，在这里面调用Dataset，DataSet调用getitem，在硬盘中根据给定的索引去读取实际的图像和标签。在读取一个batchsize的数据之后，通过collate_fn去整理，整理成一个BatchData的形式。

DataLoader

Epoch、Iteration与Batchsize之间的关系

torch.utils.data.Dataset

数据读取过程关键函数

pycharm中导入自己写的.py函数出错解决办法：直接在文件所在的目录(如上目录为 jihe )上进行操作！

数据代码

# ============================ step 1/5 数据 ============================
# 数据地址
split_dir = os.path.join("..", "data", "cad_split")
train_dir = os.path.join(split_dir, "train")
valid_dir = os.path.join(split_dir, "valid")

# 图像数据正则化均值与标准差
norm_mean = [0.485, 0.456, 0.406]
norm_std = [0.229, 0.224, 0.225]

#图像变换
train_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.RandomCrop(32, padding=4),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

valid_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

# 构建MyDataset实例，DogCatDataset类为用户自己定义
train_data = DogCatDataset(data_dir=train_dir, transform=train_transform)
valid_data = DogCatDataset(data_dir=valid_dir, transform=valid_transform)

# 构建DataLoder，数据迭代器，将用户定义的dataset放入，设置好参数即可
train_loader = DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
valid_loader = DataLoader(dataset=valid_data, batch_size=BATCH_SIZE)
# DataLoder返回的参数为可迭代的对象，label和image

# DogCatDataset.py

import os
import random
from PIL import Image
from torch.utils.data import Dataset

random.seed(1)
DogCat_label = {"dog": 0, "cat": 1}


class DogCatDataset(Dataset):#加双下划线的魔法方向都有调用的自动触发机制
    # 创建实例对象时，自动执行_ _init_ _中的语句
    def __init__(self, data_dir, transform=None):
        """
        rmb面额分类任务的Dataset
        :param data_dir: str, 数据集所在路径
        :param transform: torch.transform，数据预处理
        """
        self.label_name = {"1": 0, "100": 1}
        self.data_info = self.get_img_info(data_dir)
        # data_info存储所有图片路径和标签，执行get_img_info函数
        self.transform = transform 
        # transform数据预处理的函数名称传入，相当于函数地址传入

    def __getitem__(self, index):
    #获取图片与标签并进行预处理（返回第index个样本的具体数据）,在DataLoader中通过index读取样本
    #DataLoader需要一个getitem方法取数据，执行的就是self.data_info[index]
    #data_info从函数get_img_info中获取
    #__getitem__(self, key) 魔法方法：定义获取容器中指定元素的行为，相当于 self[key]
        path_img, label = self.data_info[index]
        img = Image.open(path_img).convert('RGB')     # 0~255

        if self.transform is not None:
            img = self.transform(img)   # 在这里做transform，转为tensor等等，让dataloader取到的图像为transform之后的图像

        return img, label

    def __len__(self):
        return len(self.data_info)

    @staticmethod
    def get_img_info(data_dir):
        data_info = list()
        for root, dirs, _ in os.walk(data_dir):
            # 遍历类别
            for sub_dir in dirs:
                img_names = os.listdir(os.path.join(root, sub_dir))
                img_names = list(filter(lambda x: x.endswith('.jpg'), img_names))

                # 遍历图片
                for i in range(len(img_names)):#相当于img_names.__len__(),自动触发
                    img_name = img_names[i]
                    path_img = os.path.join(root, sub_dir, img_name)
                    label_name = img_name.split(".")[0]     # 新增代码
                    label = DogCat_label[label_name]        # 新增代码
                    # label = DogCat_label[sub_dir]           # 原代码
                    data_info.append((path_img, int(label)))

        return data_info

夏目学习

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Week2：[任务一] 第一节 DataLoader与DataSet

数据处理工作架构框图 DataLoader(数据迭代器)由Sampler和DataSet组成Sampler的功能是生成索引，DataSet是根据索引去读取图片以及标签 DataLoader Epoch、Iteration与Batchsize之间的关系 torch.utils.data.Dataset 数据读取过程关键函数数据读取流程图首先在for循环中使用DataLoader，然后使用DataLoaderIter决...
复制链接

扫一扫