【Pytorch学习笔记】数据模块05——编写自己的Dataset

最新推荐文章于 2025-05-21 14:13:18 发布

越轨

最新推荐文章于 2025-05-21 14:13:18 发布

阅读量642

点赞数 13

分类专栏： Pytorch学习笔记文章标签： pytorch 学习笔记人工智能

本文链接：https://blog.csdn.net/qq_50040241/article/details/148102474

版权

Pytorch学习笔记专栏收录该内容

6 篇文章

订阅专栏

编写自己的Dataset

通过前面的知识，大家基本了解如何整个数据模块是如何构建的，下面举个完整的例子，要编写自定义的Dataset类，需要遵循以下基本步骤：

1. 基本结构

自定义Dataset类需要继承torch.utils.data.Dataset，并实现以下三个必要方法：

init：初始化函数，通常用于加载数据集和进行必要的预处理
len：返回数据集的总长度
getitem：根据索引返回对应的数据样本和标签

2. 实现示例

下面是一个简单的自定义图像数据集示例：

import os
from torch.utils.data import Dataset
from PIL import Image

class CustomImageDataset(Dataset):
    def __init__(self, root_dir, transform=None):
        """
        参数:
            root_dir (string): 图像文件夹的根目录
            transform (callable, optional): 可选的图像转换操作
        """
        self.root_dir = root_dir
        self.transform = transform
        self.image_list = os.listdir(root_dir)
        
    def __len__(self):
        return len(self.image_list)
        
    def __getitem__(self, idx):
        # 构建图像路径
        img_path = os.path.join(self.root_dir, self.image_list[idx])
        
        # 读取图像
        image = Image.open(img_path).convert('RGB')
        
        # 应用转换
        if self.transform:
            image = self.transform(image)
            
        return image

3. 使用示例

# 定义转换操作
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                        std=[0.229, 0.224, 0.225])
])

# 创建数据集实例
dataset = CustomImageDataset(root_dir='./images', transform=transform)

# 创建数据加载器
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)