PyTorch深度学习实践（七）

最新推荐文章于 2024-09-27 19:14:23 发布

山外小楼听夜雨.

最新推荐文章于 2024-09-27 19:14:23 发布

阅读量1.2k

点赞数

分类专栏： PyTorch深度学习文章标签： pytorch 深度学习 python

本文链接：https://blog.csdn.net/weixin_42521185/article/details/123541889

版权

本文详细介绍了如何使用PyTorch构建 DiabetesDataset 数据集，并配合 DataLoader 进行数据加载和批处理。通过实例演示了Dataset的作用，如数据预处理和划分，以及DataLoader如何划分batch、打乱数据。适合初学者理解数据处理流程。

摘要由CSDN通过智能技术生成

0 写在前面

这次学习的是数据集获取，Dataset和DataLoader

>>>首先介绍一些术语：

Data size：就是所有的训练数据（但是数据量比较大不能一次喂给模型）
Batch：也就是mini-batch，就是把Data size分批次的喂给模型
Iteration：当一个batch的数据都训练一次就称为一个Iteration
Epoch：当一个Data size的数据都训练一次就称为一个Epoch

1 Dataset、DataLoader学习

1.1 Dataset作用？

知道数据集的大小
知道数据集的某一行
划分训练集、测试集

1.2 DataLoader作用？

划分batch
选择是否shuffle打乱


import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader


class DiabetesDataset(Dataset):
    def __init__(self):
        pass
    
    def __getitem__(self, item):
        pass
    
    def __len__(self):
        pass
    

dataset = DiabetesDataset()
train_loader = DataLoader(dataset=dataset,
                          batch_size=32,
                          shuffle=True,
                          num_workers=2)

DataLoader：构建可迭代的数据装载器，我们在训练的时候，每一个for循环，每一次iteration，就会从DataLoader中获取一个batch_size大小的数据。
shuffle：表示是否需要打乱数据集中的数据。
num_workers ：表示线程处理，加了之后可以并行处理程序。需要用main函数wrap起来
数据集需要放在.py文件的同一目录下（如下图所示）
数据集我已经发布在我的下载中，大家可以点击下面链接进行下载哦

https://download.csdn.net/download/weixin_42521185/84991728

经过填写函数之后，得到下面准备数据集的完整代码。

class DiabetesDataset(Dataset):
    def __init__(

最低0.47元/天解锁文章

山外小楼听夜雨.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录