“ValueError: Sum of input lengths does not equal the length of the input dataset!”

最新推荐文章于 2024-04-10 15:49:17 发布

ZacharyGz

最新推荐文章于 2024-04-10 15:49:17 发布

阅读量1.9k

点赞数 9

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/ZacharyGz/article/details/135068675

版权

本文解释了在PyTorch中使用random_split函数时遇到的ValueError，强调了确保子数据集长度总和等于原始数据集长度的重要性。提供了解决方案，包括直接加载预划分数据和从大集合中划分的示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个错误信息 “ValueError: Sum of input lengths does not equal the length of the input dataset!” 通常出现在使用 PyTorch 的 torch.utils.data.random_split 或类似的函数来划分数据集时，划分的子集总长度与原始数据集的长度不匹配。

在 PyTorch 中，当你想把一个大的数据集划分为几个小的子集（例如训练集、验证集和测试集）时，你需要确保这些子集的长度之和等于原始数据集的长度。例如，如果你的原始数据集有 1000 个样本，你想划分为训练集和验证集，那么这两个子集的长度之和也必须是 1000。

假设你已经有了三个分开的文件夹 train, test, val，并且你想要从 train 文件夹创建一个训练集和一个验证集。这里有两种处理方式：

如果你的 train, test, val 文件夹已经包含了准确划分的数据，那么你不需要再次划分。你可以分别从这三个文件夹加载数据：
```
train_dataset = MyDataset('path/to/train')
val_dataset = MyDataset('path/to/val')
test_dataset = MyDataset('path/to/test')
```
其中 MyDataset 是你定义的用于加载数据的类。

如果你只有一个大的数据集，需要划分，你应该这样操作：

full_dataset = MyDataset('path/to/dataset')

train_size = int(0.8 * len(full_dataset))
val_size = int(0.1 * len(full_dataset))
test_size = len(full_dataset) - train_size - val_size

train_dataset, val_dataset, test_dataset = torch.utils.data.random_split(full_dataset, [train_size, val_size, test_size])