【pytorch】使用torch.utils.data.random_split()划分数据集

最新推荐文章于 2024-08-27 22:36:12 发布

Xavier Jiezou

最新推荐文章于 2024-08-27 22:36:12 发布

阅读量4w

点赞数 43

分类专栏： pytorch 文章标签： pytorch 划分数据集

本文链接：https://blog.csdn.net/qq_42951560/article/details/115445317

版权

pytorch 专栏收录该内容

35 篇文章

订阅专栏

本文介绍了如何使用PyTorch内置的torch.utils.data.random_split函数来随机划分数据集，确保了结果的可复现性，并通过示例代码展示了其用法。通过设置torch.manual_seed或torch.Generator().manual_seed可以控制随机种子，从而得到相同的划分结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

不用自己写划分数据集的函数，pytorch已经给我们封装好了，那就是torch.utils.data.random_split()。

用法详解

torch.utils.data.random_split(dataset, lengths, generator=<torch._C.Generator object>)

描述

随机将一个数据集分割成给定长度的不重叠的新数据集。可选择固定生成器以获得可复现的结果（效果同设置随机种子）。

参数

dataset (Dataset) – 要划分的数据集。
lengths (sequence) – 要划分的长度。
generator (Generator) – 用于随机排列的生成器。

示例

代码：

import torch
from torch.utils.data import random_split
dataset = range(10)
train_dataset, test_dataset = random_split(
    dataset=dataset,
    lengths=[7, 3],
    generator=torch.Generator().manual_seed(0)
)
print(list(train_dataset))
print(list(test_dataset))

输出：

[4, 1, 7, 5, 3, 9, 0]
[8, 6, 2]

torch.Generator().manual_seed(0)和torch.manual_seed(0)的效果相同，我们验证一下。

代码：

import torch
from torch.utils.data import random_split
dataset = range(10)
torch.manual_seed(0)
train_dataset, test_dataset = random_split(
    dataset=dataset,
    lengths=[7, 3]
)
print(list(train_dataset))
print(list(test_dataset))