[PyTorch 学习笔记] 2.1 DataLoader 与 DataSet

最新推荐文章于 2024-07-24 16:54:58 发布

张贤同学

最新推荐文章于 2024-07-24 16:54:58 发布

阅读量971

点赞数 4

分类专栏： Pytorch 文章标签： pytorch 深度学习

本文链接：https://blog.csdn.net/BGH12ET/article/details/108224570

版权

本文介绍了在 PyTorch 中如何使用 DataLoader 和 Dataset 处理数据，包括数据划分、数据读取、数据预处理等方面。通过人民币二分类任务为例，详细解释了如何构建 Dataset，设置 DataLoader 参数，以及数据加载流程。同时，展示了数据读取的步骤和涉及的内部方法，如 Sampler、__getitem__ 和 __len__。

摘要由CSDN通过智能技术生成

本章代码：https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson2/rmb_classification/

人民币二分类

实现 1 元人民币和 100 元人民币的图片二分类。前面讲过 PyTorch 的五大模块：数据、模型、损失函数、优化器和迭代训练。

数据模块又可以细分为 4 个部分：

数据收集：样本和标签。
数据划分：训练集、验证集和测试集
数据读取：对应于PyTorch 的 DataLoader。其中 DataLoader 包括 Sampler 和 DataSet。Sampler 的功能是生成索引， DataSet 是根据生成的索引读取样本以及标签。
数据预处理：对应于 PyTorch 的 transforms

# DataLoader 与 DataSet

torch.utils.data.DataLoader()

torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None)

功能：构建可迭代的数据装载器