PyTorch深度学习实践(七)

本文详细介绍了如何使用PyTorch构建 DiabetesDataset 数据集,并配合 DataLoader 进行数据加载和批处理。通过实例演示了Dataset的作用,如数据预处理和划分,以及DataLoader如何划分batch、打乱数据。适合初学者理解数据处理流程。
摘要由CSDN通过智能技术生成

0 写在前面

  • 这次学习的是数据集获取,Dataset和DataLoader

>>>首先介绍一些术语:

  1. Data size:就是所有的训练数据(但是数据量比较大不能一次喂给模型)
  2. Batch:也就是mini-batch,就是把Data size分批次的喂给模型
  3. Iteration:当一个batch的数据都训练一次就称为一个Iteration
  4. Epoch:当一个Data size的数据都训练一次就称为一个Epoch

1 Dataset、DataLoader学习

1.1 Dataset作用?

  • 知道数据集的大小
  • 知道数据集的某一行
  • 划分训练集、测试集

1.2 DataLoader作用?

  • 划分batch
  • 选择是否shuffle打乱

import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader


class DiabetesDataset(Dataset):
    def __init__(self):
        pass
    
    def __getitem__(self, item):
        pass
    
    def __len__(self):
        pass
    

dataset = DiabetesDataset()
train_loader = DataLoader(dataset=dataset,
                          batch_size=32,
                          shuffle=True,
                          num_workers=2)
  • DataLoader:构建可迭代的数据装载器,我们在训练的时候,每一个for循环,每一次iteration,就会从DataLoader中获取一个batch_size大小的数据。

  • shuffle:表示是否需要打乱数据集中的数据。

  • num_workers :表示线程处理,加了之后可以并行处理程序。需要用main函数wrap起来

  • 数据集需要放在.py文件的同一目录下(如下图所示)
    在这里插入图片描述

  • 数据集我已经发布在我的下载中,大家可以点击下面链接进行下载哦

https://download.csdn.net/download/weixin_42521185/84991728

  • 经过填写函数之后,得到下面准备数据集的完整代码。
class DiabetesDataset(Dataset):
    def __init__(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值