文章目录
课程内容
这节课的内容是加载数据集
几个概念:
Epoch:所有的训练样本进行了一次正向传播和反向传播
Batch Size:一次正向传播和反向传播所使用的训练样本数量
Iteration:传播(正向与反向传播)总数,每次传播使用Batch Size数量的样本
带打乱的dataloader过程示例图:
用python实现的代码片如下:
import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
class DiabetesDataset(Dataset):
def __init__(self):
pass
def __getitem__(self,index):#实现该方法,能支持下标操作
pass
def __len__(self):#通过len()返回数据集的长度
pass
dataset=DiabetesDataset
train_loader=DataLoader(dataset=dataset,
batch_size=32,
shuffle=True,
num_workers=2)#多进程(注意是进程不是线程)
对于__init__()的实现我们一般采用下述的两个方法:
1.数据量不大:一次性读进来(一般是结构化的数据)
2.数据量大:设计一个文件列表,通过下标在需要使用的时候读入(非结构数据,如音频、图像等)
接下来我们按部就班地填充各种内容__init__()内部用之前读入糖尿病数据的方式读入,加上之前的模型和训练模块,能得到一个像样的代码了
代码如下:
import torch
import numpy as np
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
class DiabetesDataset(Dataset):
def __init__(self,filepath):
xy=np.loadtxt(filepath,delimiter=',',dtype=np.float32)
self.len=xy.shape[0]
self.x_data=torch.from_numpy(xy[:,:-1])
self.y_data=torch.from_numpy(xy[:,[-1]])
def __getitem__(self,index):#实现该方法,能支持下标操作
#pass
return self.x_data[index],self.y_data[index]
def __len__(self):#通过len()返回数据集的长度
return self.len
dataset=DiabetesDataset('diabetes.csv.gz')
train_loader=DataLoader(dataset=dataset,
batch_size=32,
shuffle=True,
num_workers=0)#读入数据时使用的线程数
class Model(torch.nn.Module):
def __init__(self):
super(Model,self).__init__()
self.linear1=torch.nn.Linear(8,6)
self.linear2=torch.nn.Linear(6,4)
self.linear3=torch.nn.Linear(4,1)
self.sigmoid=torch.nn.Sigmoid()
def forward(self,x):
x=self.sigmoid(self.linear1(x))
x=self.sigmoid(self.linear2(x))
x=self.sigmoid(self.linear3(x))
return x
model=Model()
criterion=torch.nn.BCELoss(reduction='mean')
optimizer=torch.optim.SGD(model.parameters(),lr=0.01)
for epoch in range(1):
for i,data in enumerate(train_loader,0):
#1.Prepare data
inputs,labels=data #这里是由__getitem__方法实现的
#inputs和labels分别为torch.Size([32, 8]) torch.Size([32, 1])
print(np.shape(inputs),np.shape(labels))
print(inputs,labels)
#2.Forward
y_pred=model(inputs)
loss=criterion(y_pred,labels)
print(epoch,i,loss.item())
#3.Backward
optimizer.zero_grad()
loss.backward()
#4.Update
optimizer.step()
我这里看了一下DataLoader的官方文档参数真的相当多,就不搬过来了。这里主要讲一点如果各位想在windows下使用num_workers这个参数的话除了需要把调用DataLoader的代码段封装进if函数下之外,还需要注意一下自己敲代码的环境,本人使用的ide是jupyter无论如何都跑不起来,似乎是由于jupyter自身的性质决定的,如果各位使用的是PyCharm的环境的话则可以放心运行。
顺带一提使用多进程的话运行速度会更慢,理由似乎是数据量过小,操作系统不会分配资源。