Dataset和DataLoader

石头猿rock

已于 2022-07-20 16:44:42 修改

阅读量646

点赞数

分类专栏：工程实践文章标签： pytorch 深度学习 python

于 2022-06-28 17:09:07 首次发布

本文链接：https://blog.csdn.net/weixin_42887772/article/details/125505112

版权

工程实践专栏收录该内容

11 篇文章 0 订阅

订阅专栏

我们一般使用for循环来训练神经网络，在每次的迭代过程，从DataLoader中取出batchsize的数据，然后前向传播反向传播一次，更新参数一次
在加载batch数据的时候，torch创建一个可迭代的Dataset对象（需要重写__getitem__（）和__len__（）两个方法），然后与DataLoader一起使用；

DataLoader： 构造一个整数索引的采样器来获取Dataset的数据

Dataset

创建Dataset对象：
需要重写 getitem 方法和 len 方法。
前者通过提供索引返回数据，也就是提供 DataLoader获取数据的方式；后者返回数据集的长度，DataLoader依据 len 确定自身索引采样器的长度。

from torch.utils.data import Dataset
# 输入形式：[{'x':['token_id',..],'y':[label]},..],[(['token_id',..],[label]),..]
class SampleDataset(Dataset):
	def __init__(self,data_pair): #[([x],[y]),..]
		self.x = [i[0] for i in data_pair] 
		# [[x],..] shape:(len,seq)
		self.y = [i[1] for i in data_pair] 
		# [[y],..]
		self.len = len(data_pair)
	def __getitem__(self,index):
		return self.x[index],self.y[index]
		# 注意：返回时self.x和self.y长度要相同
	def __len__(self):
		return self.len

DataLoader具体步骤：

1.DataLoader根据提供的Dataset对象，生成一个数据集大小的采样器
2.根据是否设置shuffle选择顺序采样器还是随机采样器
3.采样器根据数据集大小生成一个可迭代的序号列表[0,n-1]
4.batch_sampler根据DataLoader的batch_size将采样器提供的序列列表划分成多个batchsize大小的可迭代列表

# dataloader需接收tensor
from torch.utils.data import DataLoader
dataset = SampleDataset(train_data) #获取可迭代对象
train_data = Dataloader(dataset,batch_size=config.batch_size,shuffle=True,collate_fn=)

collate_fn()

首先dataloader将dataset切成一个个batch，然后调用collate_fn来整理数据

对batch排序
对x进行padding保持长度一致，否则报错（当y是文本也需要）

石头猿rock

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Dataset和DataLoader

我们一般使用for循环来训练神经网络，在每次的迭代过程，从DataLoader中取出batchsize的数据，然后前向传播反向传播一次，更新参数一次在加载batch数据的时候，torch创建一个可迭代的Dataset对象（需要重写__getitem__（）和__len__（）两个方法），然后与DataLoader一起使用；DataLoader：构造一个整数索引的采样器来获取Dataset的数据创建Dataset对象：需要重写 getitem 方法和 len 方法。前者通过提供索引返回数据，也就是提供
复制链接

扫一扫