PyTorch深度学习学习记录4

vzvzvzv

已于 2022-12-02 13:19:23 修改

阅读量215

点赞数

分类专栏： pytorch 文章标签：深度学习 pytorch 学习

于 2022-11-15 21:04:45 首次发布

本文链接：https://blog.csdn.net/vzvzvzv/article/details/127864511

版权

pytorch 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

课程内容

课程内容

这节课的内容是加载数据集
几个概念：

Epoch:所有的训练样本进行了一次正向传播和反向传播

Batch Size：一次正向传播和反向传播所使用的训练样本数量

Iteration：传播（正向与反向传播）总数，每次传播使用Batch Size数量的样本

带打乱的dataloader过程示例图：
在这里插入图片描述用python实现的代码片如下：

import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

class DiabetesDataset(Dataset):
    def __init__(self):
        pass
    
    def __getitem__(self,index):#实现该方法，能支持下标操作
        pass
    
    def __len__(self):#通过len()返回数据集的长度
        pass
    
dataset=DiabetesDataset
train_loader=DataLoader(dataset=dataset,
										batch_size=32,
										shuffle=True,
										num_workers=2)#多进程（注意是进程不是线程）

对于__init__()的实现我们一般采用下述的两个方法：
1.数据量不大：一次性读进来（一般是结构化的数据）
2.数据量大：设计一个文件列表，通过下标在需要使用的时候读入（非结构数据，如音频、图像等）

接下来我们按部就班地填充各种内容__init__()内部用之前读入糖尿病数据的方式读入，加上之前的模型和训练模块，能得到一个像样的代码了
代码如下：

import torch
import numpy as np
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

class DiabetesDataset(Dataset):
    def __init__(self,filepath):
        xy=np.loadtxt(filepath,delimiter=',',dtype=np.float32)
        self.len=xy.shape[0]
        self.x_data=torch.from_numpy(xy[:,:-1])
        self.y_data=torch.from_numpy(xy[:,[-1]])
        
        
    def __getitem__(self,index):#实现该方法，能支持下标操作
        #pass
        return self.x_data[index],self.y_data[index]
    
    def __len__(self):#通过len()返回数据集的长度
        return self.len
    
dataset=DiabetesDataset('diabetes.csv.gz')
train_loader=DataLoader(dataset=dataset,
                        batch_size=32,
                        shuffle=True,
                        num_workers=0)#读入数据时使用的线程数

class Model(torch.nn.Module):
    def __init__(self):
        super(Model,self).__init__()
        self.linear1=torch.nn.Linear(8,6)
        self.linear2=torch.nn.Linear(6,4)
        self.linear3=torch.nn.Linear(4,1)
        self.sigmoid=torch.nn.Sigmoid()
        
    def forward(self,x):
        x=self.sigmoid(self.linear1(x))
        x=self.sigmoid(self.linear2(x))
        x=self.sigmoid(self.linear3(x))
        return x

model=Model()

criterion=torch.nn.BCELoss(reduction='mean')
optimizer=torch.optim.SGD(model.parameters(),lr=0.01)


for epoch in range(1):
    for i,data in enumerate(train_loader,0):
        #1.Prepare data
        inputs,labels=data #这里是由__getitem__方法实现的
        #inputs和labels分别为torch.Size([32, 8]) torch.Size([32, 1])
        print(np.shape(inputs),np.shape(labels))
        print(inputs,labels)
        #2.Forward
        y_pred=model(inputs)
        loss=criterion(y_pred,labels)
        print(epoch,i,loss.item())
        #3.Backward
        optimizer.zero_grad()
        loss.backward()
        #4.Update
        optimizer.step()

我这里看了一下DataLoader的官方文档参数真的相当多，就不搬过来了。这里主要讲一点如果各位想在windows下使用num_workers这个参数的话除了需要把调用DataLoader的代码段封装进if函数下之外，还需要注意一下自己敲代码的环境，本人使用的ide是jupyter无论如何都跑不起来，似乎是由于jupyter自身的性质决定的，如果各位使用的是PyCharm的环境的话则可以放心运行。

顺带一提使用多进程的话运行速度会更慢，理由似乎是数据量过小，操作系统不会分配资源。