torch.utils.data.DataLoader使用方法

最新推荐文章于 2025-05-29 16:17:02 发布

转载最新推荐文章于 2025-05-29 16:17:02 发布 · 9.5k 阅读

6 ·

CC 4.0 BY-SA版权

原文链接：https://www.cnblogs.com/demo-deng/p/10623334.html

本文详细介绍了PyTorch中DataLoader的功能与用法，DataLoader是PyTorch提供的数据加载工具，能结合数据集和取样器，实现数据的批处理和多线程读取，适用于模型训练过程中的数据管理，通过示例展示了如何使用DataLoader将数据集分为多个批次，进行高效的数据迭代。

部分转发

https://www.cnblogs.com/demo-deng/p/10623334.html

PyTorch 中的数据类型 torch.utils.data.DataLoader

数据加载器，结合了数据集和取样器，并且可以提供多个线程处理数据集。
在训练模型时使用到此函数，用来把训练数据分成多个小组，此函数每次抛出一组数据。直至把所有的数据都抛出。就是做一个数据的初始化。

"""
    批训练，把数据变成一小批一小批数据进行训练。
    DataLoader就是用来包装所使用的数据，每次抛出一批数据
"""
import torch
import torch.utils.data as Data

BATCH_SIZE = 5

x = torch.linspace(1, 10, 10)
y = torch.linspace(10, 1, 10)
# 把数据放在数据库中
torch_dataset = Data.TensorDataset(x, y)
loader = Data.DataLoader(
    # 从数据库中每次抽出batch size个样本
    dataset=torch_dataset,
    batch_size=BATCH_SIZE,
    shuffle=True,
    num_workers=2,
)


def show_batch():
    for epoch in range(3):
        for step, (batch_x, batch_y) in enumerate(loader):
            # training


            print("steop:{}, batch_x:{}, batch_y:{}".format(step, batch_x, batch_y))


if __name__ == '__main__':
    show_batch()

根据设置每个epoch 进行shuffle

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

eat_the_frog

关注关注

8
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Pytorch torch.utils.data.DataLoader 用法详细介绍

日常学习与专研的记录

04-03

2508

本文详细介绍 Pytorch torch.utils.data.DataLoader 用法。

【pytorch】 torch.utils.data.DataLoader用法详解

sazass的博客

05-11

9880

参考： https://pytorch.org/docs/stable/data.html?highlight=torch%20utils%20data%20dataloader#torch.utils.data.DataLoader https://blog.csdn.net/u014380165/article/details/79058479 官方函数定义： class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False,

2 条评论您还未登录，请先登录后发表或查看评论

python torch.utils.data.DataLoader使用方法

09-17

主要介绍了python torch.utils.data.DataLoader使用方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

torch.utils.data.DataLoader函数用法及详解

记录学习的小白

04-15

4122

class DataLoader(object): r""" Data loader. Combines a dataset and a sampler, and provides single- or multi-process iterators over the dataset. Arguments: dataset (Dataset): dataset from which to load the data. batch_size (.

torch.utils.data.DataLoader使用

jjw_zyfx的博客

09-22

745

各参数详解如图

【Pytorch基础】torch.utils.data.DataLoader方法的使用

sxl的博客

05-15

4万+

torch.utils.data.DataLoader主要是对数据进行batch的划分，除此之外，特别要注意的是输入进函数的数据一定得是可迭代的。如果是自定的数据集的话可以在定义类中用def__len__、def__getitem__定义。使用DataLoader的好处是，可以快速的迭代数据。 import torch import torch.utils.data as Data torch.manual_seed(1) # reproducible BATCH_SIZE = 5

浅谈torch.utils.data.TensorDataset和torch.utils.data.DataLoader

kaiaaaa的博客

12-30

780

是一个将多个张量（Tensor）数据进行简单包装整合的数据集类，它主要的作用是将相关联的数据（比如特征数据和对应的标签数据等）组合在一起，形成一个方便后续用于训练等操作的数据集对象。例如，如果你有输入特征数据x（形状为）和对应的标签数据y（形状为），且它们都是类型，可以这样创建。

PyTorch源码解读之torch.utils.data.DataLoader使用方法

weixin_43570470的博客

03-28

2054

torch.utils.data.DataLoader使用方法的学习笔记

PyTorch中 torch.utils.data.DataLoader 的详细解析和读取点云数据示例

qq_36812406的博客

05-29

1610

变长数据（如文本、点云）或特殊处理需求# 假设每个样本是 list 或 tensor（变长）collate_fn。

利用torch.utils.data.Dataset自定义数据加载类

12-21

import torch as t from torch.utils import data import os from PIL import Image import numpy as np import torchvision.transforms as T transforms = T.Compose([ 　　T.Resize(224), 　　T.CenterCrop(224), 　　T.ToTensor(), 　　T.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5)) ]) # 继承Dataset类要重写__getitem__

torch.utils.data.DataLoader

shajie的博客

08-07

2824

pytorch数据加载

PyTorch源码解读之torch.utils.data.DataLoader

热门推荐

AI之路

01-14

22万+

PyTorch中数据读取的一个重要接口是torch.utils.data.DataLoader，该接口定义在dataloader.py脚本中，只要是用PyTorch来训练模型基本都会用到该接口，该接口主要用来将自定义的数据读取接口的输出或者PyTorch已有的数据读取接口的输入按照batch size封装成Tensor，后续只需要再包装成Variable即可作为模型的输入，因此该接口有点承上启下的

torch.utils.data.Dataset用法

大柠檬的博客

05-04

1万+

利用继承自Dataset的类，可以访问训练所需的数据比如一下数据：保存为csv文件 from torch.utils.data import Dataset import pandas as pd #这个包用来读取CSV数据 class mydataset(Dataset): def __init__(self,csv_file): #self参数必须，其他参数及其形式随程序需要而不同...

解决 batch_sampler option is mutually exclusive with batch_size, shuffle, sampler, and drop_last

qq_38343151的博客

06-22

9163

因为我再dataloader中传入了drop_last=True，就报错ValueError: batch_sampler option is mutually exclusive with batch_size, shuffle, sampler, and drop_last，看源码发现问题所在，因为参数设置的冲突导致，我设置batch_sampler这个参数，一旦指定了这个参数，那么batch_size,shuffle,sampler,drop_last就不能再制定了（互斥——Mutually exc.

pytorch初学笔记（六）：DataLoader的使用

CV在读

10-30

2万+

DataLoader是一个可迭代的数据装载器，组合了数据集和采样器，并在给定数据集上提供可迭代对象。可以完成对数据集中多个对象的集成。CLASSDataLoaderdataset,,,,,,,,,timeout=0,,,,*,,,)Epoch：所有训练样本都已输入到模型中，称为一个epochIteration：一批样本（batch_size）输入到模型中，称为一个Iteration,

torch.utils.data.DataLoader()

weixin_36670529的博客

05-16

982

数据加载器，结合了数据集和取样器，并且可以提供多个线程处理数据集。在训练模型时使用到此函数，用来把训练数据分成多个小组，此函数每次抛出一组数据。直至把所有的数据都抛出。就是做一个数据的初始化。生成迭代数据非常方便，请看如下示例： """ 批训练，把数据变成一小批一小批数据进行训练。 DataLoader就是用来包装所使用的数据，每次抛出一批数据 """ import t...

Pytorch：torch.utils.data.DataLoader()

weixin_42046845的博客

11-29

480

如果读者正在从事深度学习的项目，通常大部分时间都花在了处理数据上，而不是神经网络上。因为数据就像是网络的燃料：它越合适，结果就越快、越准确！神经网络表现不佳的主要原因之一可能是由于数据不佳或理解不足。因此，以更直观的方式理解、预处理数据并将其加载到网络中非常重要。

torch.utils.data.dataloader.DataLoader

最新发布

08-26

### 功能概述 `torch.utils.data.DataLoader` 是 PyTorch 中用于数据加载的重要工具类，它能够将数据集包装成一个可迭代的对象，方便地进行数据加载和批处理操作。该类支持多种功能，包括批量读取、数据打乱、多线程并行加载、自动将数据打包成 batch、数据预处理和增强等 [^3]。 ### 常见参数详解 - **dataset**：传入的 `Dataset` 对象（如自定义或 `torchvision.datasets`）。 - **batch_size**：每个 batch 的样本数量。 - **shuffle**：是否打乱数据（通常训练集为 `True`）。 - **num_workers**：并行加载数据的线程数（越大越快，但依机器决定）。 - **drop_last**：是否丢弃最后一个不足 `batch_size` 的 batch。 - **pin_memory**：若为 `True`，会将数据复制到 CUDA 的 page-locked 内存中（加速 GPU 训练）。 - **collate_fn**：自定义打包 batch 的函数（可用于变长序列、图神经网络等）。 - **sampler**：控制数据采样策略，不能与 `shuffle` 同时使用。 - **persistent_workers**：若为 `True`，worker 在 epoch 间保持运行状态（提高效率，PyTorch 1.7+）。 ### 基本使用示例 ```python from torch.utils.data import Dataset, DataLoader class MyDataset(Dataset): def __init__(self): self.data = [i for i in range(100)] def __len__(self): return len(self.data) def __getitem__(self, idx): return self.data[idx] dataset = MyDataset() loader = DataLoader(dataset, batch_size=8, shuffle=True, num_workers=2) for batch in loader: print(batch) ``` ### 自定义 `collate_fn` 示例当需要处理变长序列或其他特殊情况时，可以通过自定义 `collate_fn` 来实现更灵活的数据打包方式。 ```python def collate_fn(batch): # 自定义打包逻辑 return [item * 2 for item in batch] loader = DataLoader(dataset, batch_size=8, shuffle=True, num_workers=2, collate_fn=collate_fn) for batch in loader: print(batch) ``` ### 相关问题 1. 如何在 PyTorch 中自定义 Dataset 并与 DataLoader 结合使用？ 2. 如何利用 num_workers 参数加速数据加载？ 3. 在什么情况下需要自定义 collate_fn 函数？ 4. 如何在使用 DataLoader 时进行数据增强？ 5. 如何理解 pin_memory 参数的作用及其对性能的影响？