课程笔记：数据读取dataloder和dataset

最新推荐文章于 2024-08-11 23:44:19 发布

未来可期，期许未来

最新推荐文章于 2024-08-11 23:44:19 发布

阅读量805

点赞数 2

分类专栏： pytorch课程

本文链接：https://blog.csdn.net/pangpangben/article/details/116304821

版权

pytorch课程专栏收录该内容

17 篇文章 0 订阅

订阅专栏

本文详细介绍了深度学习中的核心概念，包括epoch、iteration和batch_size，阐述了它们在训练模型过程中的作用。数据处理方面，从数据收集、划分、读取到预处理的完整流程被解析，特别是dataloader的角色，它负责将数据整理为适合模型训练的batch_size形式。同时，文章强调了数据预处理和正确设置这些参数对于模型性能的重要性。

摘要由CSDN通过智能技术生成

epoch: 所有样本都输入到模型中
iteration: 一批样本输入到模型中
batchsize: 批大小，决定一个epoch有多少个iteration (一次输入多少个样本到模型中 )

数据：
1)数据收集：img, label
2)数据划分：train、valid和test
3)数据读取：dataloader ：
sampler ：index（生成索引）
dataset ：img，label（根据索引读取图片和标签）
4)数据预处理：transforms

dataloder

每次for循环，每次iteration就是从dataloder中获取一个batch size大小的数据
在这里插入图片描述

dataset

getitem:接受索引，返回样本（图片和标签）
在这里插入图片描述

数据读取

1）读哪些数据：sampler输出的index(每个iteration读取一批数据)
2）从哪儿读数据：dataset的data_dir（在硬盘中如何找数据）
3）怎么读数据：dataset中的getitem
在这里插入图片描述
数据（代码思路）
首先写数据路径（硬盘中），再写数据预处理transform，然后Dataset，最后DataLoader（整理成batch_size的形式）