【深度学习】两种数据集格式（Dataset和ImageFolder）-CSDN博客

本文链接：https://blog.csdn.net/m0_56997192/article/details/147641882

1、`Dataset` 和 `ImageFolder` 类型数据集的区别

`Dataset` 类型：

Dataset 是 Hugging Face datasets 库中的一个抽象类，它用于处理从任何数据源加载的数据。它的设计使得用户可以处理各种类型的数据，包括文本、图像、音频等。每个数据集通常会被表示为一个字典，其中每个键对应一个数据字段（例如 image 和 label），每个值是该字段的数据（例如图像和标签）。此外，Dataset 还支持通过 .map() 函数来应用转换。

对于 Dataset 类型数据集：

数据通常是以列表或字典的形式存储的。
它提供了 .map()、.filter() 等操作，可以方便地对数据集进行转换。
数据存储格式：image 字段中的数据可能是 PIL 图像对象，或者是其他形式的图像数据。

`ImageFolder` 类型：

ImageFolder 是 torchvision 库中用于加载文件夹结构图像数据集的类。它适用于按类分组文件夹的图像数据集，其中每个文件夹表示一个类别，包含该类别的图像。ImageFolder 会自动为每个子目录分配标签。

对于 ImageFolder 类型数据集：

它假设数据集目录结构是按类别组织的，每个类别的图像位于各自的子目录中。
自动为每个子目录生成标签（例如，class_0、class_1 等）。
数据存储格式：图像数据通常是 PIL.Image 对象，标签是整数。
使用 .transform 可以在加载时对图像进行预处理。

2、是否可以直接传入 `DataLoader`？

ImageFolder 类型：可以直接传入 DataLoader，因为它本身已经实现了对图像数据的处理，并且返回一个由图像和标签组成的元组。
Dataset 类型：需要确保数据集中包含了可以直接处理的图像数据（例如 PIL.Image 或 Tensor 类型的图像），并且 DataLoader 可以通过 collate_fn 来处理批次。如果你的数据集是从 datasets 库加载的，它通常是一个字典，包含多个字段，你需要在 DataLoader 中指定 collate_fn 来对这些数据进行打包。

3、如何转换两个数据集？

从 `ImageFolder` 转换为 `Dataset` 类型（Hugging Face `datasets`）：

你可以通过 datasets 库中的 Dataset 类来手动转换数据。首先，你需要读取 ImageFolder 数据集中的图像，并将它们存储到一个 Dataset 对象中。

import os
from torchvision import datasets, transforms
from datasets import Dataset
from PIL import Image

# 定义转换
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
])

# 加载 ImageFolder 数据集
imagefolder = datasets.ImageFolder(root='/path/to/imagenet200', transform=transform)

# 创建 Hugging Face Dataset
data = {
    'image': [imagefolder[i][0] for i in range(len(imagefolder))],
    'label': [imagefolder[i][1] for i in range(len(imagefolder))],
}

dataset = Dataset.from_dict(data)

# 检查类型
print(type(dataset))

从 `Dataset` 类型转换为 `ImageFolder` 类型：

如果你已经有一个 Dataset 类型的数据集（例如来自 datasets 库），并且想要将其转换为 ImageFolder 类型，通常需要将数据按目录结构进行分配和组织。你可以手动创建文件夹，并将图像数据保存到这些文件夹中，然后使用 ImageFolder 来加载。

import os
from torchvision import datasets
from PIL import Image

# 假设数据集中包含图像和标签
images = dataset['image']
labels = dataset['label']

# 创建目录
dataset_root = '/path/to/save/converted_data'
for i in range(max(labels) + 1):  # 假设标签从 0 开始
    os.makedirs(os.path.join(dataset_root, str(i)), exist_ok=True)

# 将图像保存到相应的目录
for idx, (image, label) in enumerate(zip(images, labels)):
    image_path = os.path.join(dataset_root, str(label), f'{idx}.png')
    image.save(image_path)

# 使用 ImageFolder 加载
imagefolder = datasets.ImageFolder(root=dataset_root, transform=transform)

# 检查类型
print(type(imagefolder))

4、如何用 `DataLoader` 加载这两个数据集？

无论是 ImageFolder 还是 Dataset 类型，最终你都可以使用 DataLoader 来加载数据并进行批处理：

from torch.utils.data import DataLoader

# 对于 ImageFolder 类型
train_loader = DataLoader(imagefolder, batch_size=64, shuffle=True, num_workers=4)

# 对于 Dataset 类型
train_loader = DataLoader(dataset, batch_size=64, shuffle=True, num_workers=4)

小结：

ImageFolder 是一个专门用于加载图像数据集的类，适用于数据集目录按类别组织的情况，能够自动处理图像和标签。
Dataset 类型数据集适用于多种数据格式，可以存储更复杂的数据结构，灵活性更高，但通常需要手动处理数据格式。
转换方法：可以通过 Dataset 类的 from_dict 方法将 ImageFolder 数据转换为 Dataset 类型；反之，则需要手动组织目录并使用 ImageFolder 加载数据。