PyTorch深度学习实践-P8加载数据集

最新推荐文章于 2023-02-16 12:53:21 发布

m0_60673782

最新推荐文章于 2023-02-16 12:53:21 发布

阅读量494

点赞数

分类专栏：《PyTorch深度学习实践》-b站刘二大人文章标签： pytorch 深度学习人工智能 1024程序员节

本文链接：https://blog.csdn.net/m0_60673782/article/details/120899567

版权

本文介绍了PyTorch中的数据集Dataset和DataLoader的使用，包括epoch、batch-size和iterations的定义。通过Diabetes数据集为例，详细阐述了如何定义自定义数据集，注意点包括数据加载的内存管理和使用DataLoader进行批量训练。最后展示了训练循环的变化，由一次循环变为双重循环以适应mini-batch训练。

摘要由CSDN通过智能技术生成

Dataset and DataLoader

datase用来构造数据集，数据集应该支持索引，dataloader用来拿出一个mini-batch来供训练时快速使用。

复习：

用全部batch，可以提升计算速度，可以使用CPU、GPU的并行能力，在处理性能上会较慢
使用一个样本来随机梯度下降，可以帮助我我们跨过鞍点，但会导致优化时间过长，一个样本本没法使用并行计算能力，数据上下有关联
使用mini-batch平衡性能和时间的需求

对于epoch、batch-size、iterations的定义：

epoch：所有训练样本fowrwad backward一次就是一个epoch（所有样本都参与训练）
batch-size：一次forward backward训练时所用样本数量
iteration：batch一共分了多少个，内层迭代分了多少次
假设1w样本，batch-size（mini-batch）为1k个，iteration=10

DataLoader：举例~batch-size=2，shuffle=True（训练样本随机，打乱顺序）

dataset需要支持索引，需要知道长度

iterable loader，yield来产生下一个对象，用for循环把每个batch拿出来

How to define Dataset:

Dataset 是一个抽象的类（不能实例化），通过继承来定义自己的类
DataLoader是来帮助我们加载数据的类，可以实例化dataloader
DiabetesDataset继承自Dataset类
getitem是魔法方法，实例化之后，这个可以支持

最低0.47元/天解锁文章

m0_60673782

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PyTorch深度学习实践-P8加载数据集

Dataset and DataLoaderdatase用来构造数据集，数据集应该支持索引，dataloader用来拿出一个mini-batch来供训练时快速使用。复习：用全部batch，可以提升计算速度，可以使用CPU、GPU的并行能力，在处理性能上会较慢使用一个样本来随机梯度下降，可以帮助我我们跨过鞍点，但会导致优化时间过长，一个样本本没法使用并行计算能力，数据上下有关联使用mini-batch平衡性能和时间的需求对于epoch、batch-size、iterations的定义：
复制链接

扫一扫

专栏目录