PyTorch Data Loading 组件详解

原创于 2025-12-15 08:11:48 发布 · 761 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #人工智能 #python

Pytorch框架专栏收录该内容

158 篇文章

订阅专栏

一、核心概念区分

1.1 Dataset (数据集基类)

用途：定义数据集的抽象接口

位置：torch.utils.data.Dataset

from torch.utils.data import Dataset

class MyDataset(Dataset):
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels
    
    def __len__(self):
        """返回数据集的大小"""
        return len(self.data)
    
    def __getitem__(self, idx):
        """根据索引返回一个样本"""
        return self.data[idx], self.labels[idx]

关键特点：

抽象基类，必须被子类化
定义了数据集的标准接口
不处理批量加载、并行加载等
只负责单个样本的获取

1.2 DataLoader (数据加载器)

用途：从Dataset创建可迭代的数据加载器

位置：torch.utils.data.DataLoader

from torch.utils.data import DataLoader

# 创建DataLoader
dataloader = DataLoader(
    dataset=my_dataset,      # Dataset实例
    batch_size=32,           # 批量大小
    shuffle=True,            # 是否打乱
    num_workers=4,           # 工作进程数
    pin_memory=True,         # 是否使用固定内存
    drop_last=False,         # 是否丢弃最后不完整的批次
)

关键特点：

接收Dataset作为输入
处理批量加载、数据打乱、并行加载
返回可迭代的批次数据
是实际用于训练的数据提供者

1.3 dataloader 模块

用途：包含DataLoader和其他数据加载相关工具的模块

位置：torch.utils.data.dataloader

# 通常不直接导入dataloader模块
# 而是从torch.utils.data导入DataLoader
from torch.utils.data import DataLoader

# 但可以查看dataloader模块的内容
import torch.utils.data.dataloader as dataloader_module
print(dir(dataloader_module))  # 查看包含的内容

关键特点：

包含DataLoader类的实现
包含_DataLoaderIter等内部类
包含default_collate等工具函数
通常用户不需要直接导入这个模块

1.4 distributed 模块

用途：分布式训练相关的数据加载工具

位置：torch.utils.data.distributed

from torch.utils.data.distributed import DistributedSampler
from torch.utils.data import DataLoader
import torch.distributed as dist

# 初始化分布式环境
dist.init_process_group(backend='nccl')

# 创建分布式采样器
sampler = DistributedSampler(
    dataset=my_dataset,
    num_replicas=dist.get_world_size(),  # 总进程数
    rank=dist.get_rank(),                # 当前进程rank
    shuffle=True
)

# 创建DataLoader（不使用默认的shuffle，而是用sampler）
dataloader = DataLoader(
    dataset=my_dataset,
    batch_size=32,
    sampler=sampler,  # 使用分布式采样器
    num_workers=4
)

关键特点：

专为分布式训练设计
包含DistributedSampler，确保每个GPU看到数据的不同部分
在DDP（DistributedDataParallel）训练中必需

二、详细对比

2.1 Dataset vs DataLoader

特性	Dataset	DataLoader
主要职责	定义如何获取单个样本	从Dataset批量加载数据
输入	原始数据	Dataset对象
输出	单个样本	批次数据
并行处理	不支持	支持多进程加载
数据打乱	不支持	支持
批处理	不支持	支持
内存优化	不涉及	支持pin_memory等

2.2 使用示例对比

Dataset 示例：

# 定义数据集
class ImageDataset(Dataset):
    def __init__(self, image_paths, labels, transform=None):
        self.image_paths = image_paths
        self.labels = labels
        self.transform = transform
    
    def __len__(self):
        return len(self.image_paths)
    
    def __getitem__(self, idx):
        # 加载单个样本
        image = Image.open(self.image_paths[idx])
        label = self.labels[idx]
        
        if self.transform:
            image = self.transform(image)
        
        return image, label

# 创建数据集实例
dataset = ImageDataset(paths, labels, transform=transform)
# 直接使用dataset（不推荐，效率低）
for i in range(len(dataset)):
    img, label = dataset[i]  # 每次加载一个样本

DataLoader 示例：

# 创建DataLoader
dataloader = DataLoader(
    dataset=dataset,
    batch_size=32,
    shuffle=True,
    num_workers=4
)

# 使用dataloader（推荐）
for batch_idx, (images, labels) in enumerate(dataloader):
    # images: [32, 3, 224, 224]
    # labels: [32]
    train_model(images, labels)

2.3 distributed 模块核心组件

DistributedSampler

from torch.utils.data.distributed import DistributedSampler

# 创建分布式采样器
sampler = DistributedSampler(
    dataset,
    num_replicas=world_size,  # GPU总数
    rank=rank,                # 当前GPU的rank
    shuffle=True
)

工作原理：

将数据集划分为多个分片
每个GPU获得不同的数据分片
避免不同GPU看到相同的数据

使用示例：

import torch
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel
from torch.utils.data import DataLoader
from torch.utils.data.distributed import DistributedSampler

# 初始化分布式环境
dist.init_process_group(backend='nccl')

# 获取当前进程信息
world_size = dist.get_world_size()  # 总进程数
rank = dist.get_rank()              # 当前进程rank
local_rank = rank % torch.cuda.device_count()  # 本地GPU索引

# 创建分布式采样器
sampler = DistributedSampler(
    dataset,
    num_replicas=world_size,
    rank=rank,
    shuffle=True
)

# 创建DataLoader
dataloader = DataLoader(
    dataset,
    batch_size=32,
    sampler=sampler,  # 注意：使用sampler时不能设置shuffle=True
    num_workers=4,
    pin_memory=True
)

# 训练循环
for epoch in range(epochs):
    # 在每个epoch开始时设置epoch
    sampler.set_epoch(epoch)
    
    for batch_idx, (images, labels) in enumerate(dataloader):
        # 训练代码...
        pass

2.4、 `DataLoader` 和 `dataloader`

结论速览

名称	类型	说明
`DataLoader`	类（Class）	用户直接使用的数据加载器主类，即 `torch.utils.data.DataLoader`
`dataloader`	模块（Module）	是 `torch.utils.data.dataloader` 这个 Python 模块本身（包含 `DataLoader` 类的定义）

🔸 简单说：

DataLoader 是一个类，你用它来创建数据加载器实例；
dataloader 是一个模块对象，是 PyTorch 内部实现 DataLoader 的源文件模块。

详细解释

1. `DataLoader`（大写 D）

这是你在日常训练中最常使用的类：

from torch.utils.data import DataLoader

loader = DataLoader(dataset, batch_size=32)

它实际上是 torch.utils.data.dataloader.DataLoader 的别名。
在 torch/utils/data/__init__.py 中，通常有如下导入：
```
from .dataloader import DataLoader
```
所以你可以直接 from torch.utils.data import DataLoader。

用途：创建可迭代的数据加载器，用于训练循环。

2. `dataloader`（小写 d）

这是 torch.utils.data 包下的一个子模块（submodule），对应文件通常是：

torch/utils/data/dataloader.py

当你写：

from torch.utils.data import dataloader

你实际上导入的是整个 dataloader.py 模块对象。你可以通过它访问内部的类或函数，例如：

# 等价于 from torch.utils.data.dataloader import DataLoader
MyLoader = dataloader.DataLoader(dataset, batch_size=32)

或者查看模块属性：

print(dataloader.__file__)  # 显示 dataloader.py 的路径

用途：主要用于内部开发、动态导入、或访问模块级属性（一般用户不需要直接使用）。

验证示例

from torch.utils.data import DataLoader, dataloader

print(type(DataLoader))        # <class 'type'> → 是一个类
print(type(dataloader))        # <class 'module'> → 是一个模块

# 两者等价
loader1 = DataLoader(...)
loader2 = dataloader.DataLoader(...)

print(loader1.__class__ is loader2.__class__)  # True

为什么会有这种设计？

这是 Python 包的标准组织方式：

torch.utils.data 是一个包（package）；
其中 dataloader.py 是一个模块（module），实现了 DataLoader 类；
为了方便用户，在 torch.utils.data.__init__.py 中将常用类（如 DataLoader, Dataset）暴露到顶层。

所以你可以：

简洁写法（推荐）：from torch.utils.data import DataLoader
完整路径写法：from torch.utils.data.dataloader import DataLoader

2.5、DataLoader和dataloader.DataLoader

没有区别。

在 PyTorch 中：

from torch.utils.data import DataLoader

和

from torch.utils.data import dataloader
DataLoader = dataloader.DataLoader

或者直接使用：

torch.utils.data.dataloader.DataLoader

这三者 指向的是同一个类，完全等价。

详细解释

PyTorch 的 torch.utils.data 包的结构如下（简化）：

torch/utils/data/
├── __init__.py       ← 这里做了导入暴露
├── dataset.py        ← 定义 Dataset 基类
└── dataloader.py     ← 定义 DataLoader 类

在 torch/utils/data/__init__.py 中，你会看到类似这样的代码：

from .dataset import Dataset
from .dataloader import DataLoader

这意味着：

torch.utils.data.DataLoader 实际上是 torch.utils.data.dataloader.DataLoader 的一个别名（alias）。
你通过 from torch.utils.data import DataLoader 导入的，就是 dataloader.py 模块中定义的那个 DataLoader 类。

验证方法（可运行）

你可以用以下代码验证它们是否是同一个对象：

from torch.utils.data import DataLoader
from torch.utils.data import dataloader

print(DataLoader is dataloader.DataLoader)  # 输出: True
print(id(DataLoader) == id(dataloader.DataLoader))  # 输出: True

结果为 True，说明它们是同一个类对象，内存地址都一样。

那为什么有人写 `dataloader.DataLoader`？

历史/源码习惯：PyTorch 源码内部有时会用 dataloader.DataLoader 避免命名冲突。
动态继承或 monkey patch：比如你提到的 InfiniteDataLoader：
```
class InfiniteDataLoader(dataloader.DataLoader):
    ...
```
这样写是为了明确继承自底层模块中的原始类（虽然 DataLoader 也可以）。
避免局部变量覆盖：如果当前作用域有一个叫 DataLoader 的变量，用 dataloader.DataLoader 可以确保拿到原始类。

但在绝大多数用户代码中，直接用 DataLoader 更清晰、更 Pythonic。

结论

写法	是否推荐	说明
`from torch.utils.data import DataLoader` `loader = DataLoader(...)`	强烈推荐	标准、简洁、官方示例写法
`from torch.utils.data import dataloader` `loader = dataloader.DataLoader(...)`	不必要	功能相同，但冗余
`class MyLoader(dataloader.DataLoader):`	特定场景可用	如需确保继承原始类（避免被 monkey-patched）

💡 记住：DataLoader 就是 dataloader.DataLoader，二者无任何功能或性能差异。

三、实际应用示例

3.1 完整的数据加载流程

import torch
from torch.utils.data import Dataset, DataLoader
import numpy as np
from PIL import Image
import glob

# 1. 定义Dataset
class CustomDataset(Dataset):
    def __init__(self, image_dir, transform=None):
        self.image_paths = glob.glob(f"{image_dir}/*.jpg")
        self.labels = [0 if "cat" in p else 1 for p in self.image_paths]  # 简单示例
        self.transform = transform
    
    def __len__(self):
        return len(self.image_paths)
    
    def __getitem__(self, idx):
        image = Image.open(self.image_paths[idx]).convert('RGB')
        label = self.labels[idx]
        
        if self.transform:
            image = self.transform(image)
        
        return image, label, self.image_paths[idx]

# 2. 创建Dataset实例
from torchvision import transforms
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], 
                         std=[0.229, 0.224, 0.225])
])

dataset = CustomDataset("data/images", transform=transform)

# 3. 创建DataLoader
dataloader = DataLoader(
    dataset=dataset,
    batch_size=32,
    shuffle=True,
    num_workers=4,
    pin_memory=True if torch.cuda.is_available() else False,
    drop_last=True,  # 丢弃最后一个不完整的批次
    prefetch_factor=2  # 每个worker预取的批次数量
)

# 4. 使用DataLoader
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
for epoch in range(10):
    for batch_idx, (images, labels, paths) in enumerate(dataloader):
        # 将数据移动到设备
        images = images.to(device)
        labels = labels.to(device)
        
        print(f"Epoch {epoch}, Batch {batch_idx}:")
        print(f"  Images shape: {images.shape}")  # [32, 3, 224, 224]
        print(f"  Labels shape: {labels.shape}")  # [32]
        print(f"  First label: {labels[0].item()}")
        
        # 训练模型...
        # model.train()
        # outputs = model(images)
        # loss = criterion(outputs, labels)
        # loss.backward()
        # optimizer.step()

3.2 分布式训练示例

import torch
import torch.distributed as dist
import torch.multiprocessing as mp
from torch.utils.data import DataLoader
from torch.utils.data.distributed import DistributedSampler
from torch.nn.parallel import DistributedDataParallel as DDP

def setup(rank, world_size):
    """初始化分布式环境"""
    os.environ['MASTER_ADDR'] = 'localhost'
    os.environ['MASTER_PORT'] = '12355'
    dist.init_process_group("nccl", rank=rank, world_size=world_size)

def cleanup():
    """清理分布式环境"""
    dist.destroy_process_group()

def train_ddp(rank, world_size, dataset):
    """分布式训练函数"""
    setup(rank, world_size)
    
    # 设置当前GPU
    torch.cuda.set_device(rank)
    
    # 创建分布式采样器
    sampler = DistributedSampler(
        dataset,
        num_replicas=world_size,
        rank=rank,
        shuffle=True
    )
    
    # 创建DataLoader
    dataloader = DataLoader(
        dataset,
        batch_size=32,
        sampler=sampler,
        num_workers=4,
        pin_memory=True
    )
    
    # 创建模型并包装为DDP
    model = MyModel().to(rank)
    model = DDP(model, device_ids=[rank])
    
    # 训练循环
    for epoch in range(epochs):
        sampler.set_epoch(epoch)  # 重要：设置epoch以确保不同epoch的数据打乱不同
        
        for batch_idx, (images, labels) in enumerate(dataloader):
            images = images.to(rank)
            labels = labels.to(rank)
            
            # 训练步骤...
            # 注意：loss会跨所有GPU自动平均
    
    cleanup()

# 启动分布式训练
if __name__ == "__main__":
    world_size = torch.cuda.device_count()
    mp.spawn(train_ddp, args=(world_size, dataset), nprocs=world_size, join=True)

四、内部工作机制

4.1 DataLoader 内部结构

DataLoader
    ├── dataset: 数据集对象
    ├── batch_sampler: 批次采样器
    ├── collate_fn: 批处理函数
    ├── num_workers: 工作进程数
    ├── pin_memory: 是否使用固定内存
    ├── worker_init_fn: 工作进程初始化函数
    └── prefetch_factor: 预取因子
    
内部迭代器 (_DataLoaderIter)
    ├── 主进程: 协调工作进程
    ├── 工作进程池: 加载和预处理数据
    └── 数据队列: 存储预处理后的批次

4.2 多进程数据加载流程

# DataLoader的工作流程
def data_loading_flow():
    # 1. 主进程创建worker进程
    workers = [Process(target=worker_fn) for _ in range(num_workers)]
    
    # 2. 每个worker独立加载和预处理数据
    for worker in workers:
        worker.start()
    
    # 3. 主进程从worker收集数据
    while training:
        # 从worker队列获取批次
        batch = get_batch_from_workers()
        
        # 4. 将批次传递给训练循环
        yield batch
    
    # 5. 训练结束后清理worker
    for worker in workers:
        worker.join()

五、最佳实践

5.1 选择合适的 num_workers

# 通常设置为CPU核心数的2-4倍
import multiprocessing as mp
cpu_count = mp.cpu_count()

# 经验法则
if cpu_count <= 4:
    num_workers = cpu_count
elif cpu_count <= 8:
    num_workers = min(4, cpu_count)
else:
    num_workers = min(8, cpu_count)

dataloader = DataLoader(
    dataset,
    batch_size=32,
    shuffle=True,
    num_workers=num_workers,  # 优化设置
    pin_memory=True
)

5.2 内存优化技巧

dataloader = DataLoader(
    dataset,
    batch_size=32,
    shuffle=True,
    num_workers=4,
    pin_memory=True,  # 加速CPU到GPU的数据传输
    prefetch_factor=2,  # 每个worker预取2个批次
    persistent_workers=True,  # 保持worker进程存活，避免重复创建
)

5.3 调试数据加载问题

# 1. 检查单个样本
sample = dataset[0]
print(f"Sample type: {type(sample)}")
print(f"Sample content: {sample}")

# 2. 检查批处理
from torch.utils.data.dataloader import default_collate
batch = default_collate([dataset[i] for i in range(4)])
print(f"Batch shapes: {[t.shape for t in batch]}")

# 3. 使用单进程调试
dataloader_debug = DataLoader(
    dataset,
    batch_size=4,
    shuffle=False,
    num_workers=0,  # 单进程，便于调试
)

for batch in dataloader_debug:
    print(f"Batch: {batch}")
    break

六、总结对比

组件	层级	主要用途	是否必须	使用频率
Dataset	底层	定义数据接口	是	每次创建新数据集
DataLoader	中层	批量加载数据	是	每次训练
dataloader模块	内部	包含DataLoader实现	否	很少直接使用
distributed模块	高层	分布式训练支持	仅分布式训练	分布式训练时

七、常见误区

混淆Dataset和DataLoader
- ❌ 错误：在训练循环中直接使用Dataset
- ✅ 正确：使用DataLoader包装Dataset
分布式训练忘记设置sampler.set_epoch()
- ❌ 错误：分布式训练每个epoch数据相同
- ✅ 正确：在每个epoch开始时调用sampler.set_epoch(epoch)
num_workers设置过大
- ❌ 错误：num_workers=100
- ✅ 正确：num_workers=CPU核心数的2-4倍
pin_memory使用不当
- ❌ 错误：在CPU训练时设置pin_memory=True
- ✅ 正确：仅在GPU训练时使用pin_memory=True