取Dataset子集(pytorch)

取Dataset子集--pytorch

1. why

我们在调试深度学习代码时,常常会遇到数据集太大,导致调试浪费时间的情况,这种情况下,将数据集中的一个子集拿出来用于调试代码,调试成功在用完整的数据集运行代码成为一个可行的方案。

2. how

pytorch中Torch.utils.data.Subset()函数提供了一个简便的方式,函数如下,indices表示取子集中样本在dataset中的序号。

在这里插入图片描述
indices可以由以下的形式输入:

indices = range(0, 10)    # or
indices = [x for x in range(10)]

3. example

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
trainset = torch.utils.data.Subset(trainset,[0,1,2,3,4,5,6,7,8,9,10,11])
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
                                          shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False,
                                       download=True, transform=transform)
testset = torch.utils.data.Subset(testset,[1,2,3,4])
testloader = torch.utils.data.DataLoader(testset, batch_size=4,
                                         shuffle=False, num_workers=2)
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch,可以使用torch.utils.data.Subset()函数来对数据集进行子集操作。这个函数接受两个参数,一个是原始数据集Dataset),另一个是一个序列切片(indices),用于指定要提取子集的样本索引范围。 例如,我们可以使用range()函数来指定要提取的样本的范围,比如range(18353),这样可以提取标号为第0个到第18352个数据的子集。然后,使用Subset()函数将这个子集应用到原始数据集上,得到一个新的子集对象sub_imgs。你可以使用len()函数来查看原始数据集子集的大小。 此外,在PyTorch还有另一个函数torch.multinomial()可以用于从一个输入张量按照多项式分布抽样本。这个函数接受三个参数,一个是输入张量(input),一个是要抽的样本数量(num_samples),还有一个可选参数replacement,用于指定是否有放回地抽样。 综上所述,在PyTorch使用Subset()函数可以对数据集进行子集操作,而torch.multinomial()函数则可以用于从输入张量样本。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [pytorch随机采样操作SubsetRandomSampler()](https://blog.csdn.net/weixin_39536427/article/details/110567031)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [【Pytorch学习笔记】11.Dataset子集、给Dataset打乱顺序的方法(使用Subset、random_split)](https://blog.csdn.net/takedachia/article/details/125866456)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值