【Pytorch学习笔记】11.取Dataset的子集、给Dataset打乱顺序的方法(使用Subset、random_split)

本文介绍了在PyTorch中如何对自定义的数据集进行操作,包括使用Subset进行数据集的子集选择,通过random_split进行随机拆分,以及利用random.permute打乱数据集顺序。这些方法对于训练集和测试集的划分,以及k折交叉验证等常见数据处理场景非常实用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(pytorch版本:1.2)

我们在使用Dataset定义好数据集后,在处理数据集时经常会碰到这些问题:如何把Dataset拆分成两个子集(如用于指定训练集和测试集、k折交叉验证等)?如何进行随机拆分?如何打乱一个Dataset内数据的顺序?

Dataset取子集、拆分

使用 torch.utils.data.Subset() 可对数据集取子集。
在这里插入图片描述
传入一个Dataset,一个序列切片indices,即可得到一个子集。


1.我们可以传入一个range():
indices = range(18353) # 取标号为第0个到第18352个数据
sub_imgs = torch.utils.data.Subset(imgs, indices)
len(imgs), len(sub_imgs)

在这里插入图片描述


2.可以取区间:
indices = range(18353, 27153) # 取标号为第18353个到第27152个数据
sub_imgs = torch.utils.data.Subset(imgs, indices)
len(imgs), len(sub_imgs)

在这里插入图片描述


3.可以传入一个List。有List就可以用列表生成式:
indices = [x for x in range(1234)]
sub_imgs = torch.utils.data.Subset(imgs, indices)
len(imgs), len(sub_imgs)

在这里插入图片描述

打乱Dataset内数据的顺序

我们可以直接传入一个乱序的index就可以达到数据集乱序的目的:

from torch import randperm
lenth = randperm(len(Leaf_dataset_train)).tolist() # 生成乱序的索引
rand_train = torch.utils.data.Subset(imgs, lenth)

# 显示一下第一张图片、原标号
X = rand_train[0]
plt.imshow(torch.transpose(X[0],0,2)), lenth[0]

在这里插入图片描述

我们在打乱顺序后就可以取子集对数据集进行k折交叉验证等行为。

随机拆分Dataset

使用 torch.utils.data.random_split() 可直接对数据集进行拆分,随机分成多份。
在这里插入图片描述
可以传入一个List,注意传入的List序列中包含每个子集的大小(数量),且这几个数的和必须等于传入Dataset的长度。
示例:

# 这里Leaf_dataset_train的大小必须等于 17000+1353
train_set, test_set = torch.utils.data.random_split(Leaf_dataset_train, [17000, 1353])
print(len(train_set), len(test_set))

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值