ogb数据集划分报错TypeError: copy() takes 1 positional argument but 2 were given
在处理图数据集时,我们需要对数据集进行划分,通常采取的解决思路是通过dataset.get_idx_split()
来得到训练集、验证集和测试集的id,然后从dataset中抽取即可
程序中的源代码如下:
dataset = PygGraphPropPredDataset(name='ogbg-molhiv')
split_idx = dataset.get_idx_split()
data = dataset[split_idx["train"]]
train_loader = DataLoader(dataset[split_idx["train"]], batch_size=32, shuffle=True, num_workers=0)
程序运行过程中产生错误:
TypeError: __copy__() takes 1 positional argument but 2 were given
而后定位到了代码中的报错的行:
train_loader = DataLoader(dataset[split_idx["train"]], batch_size=32, shuffle=True, num_workers=0)
通过debug我们发现实际报错的语句是:dataset[split_idx["train"]]
查阅相关的参考资料发现其他人运行此语句并不会报错,能够正常运行,这里不知道是哪里的问题了,包的类型已经进行了更新(并没有什么作用)
后来进行了实验,找到了解决方法
解决方案一
将
train_loader = DataLoader(dataset[split_idx["train"]], batch_size=32, shuffle=True, num_workers=0)
修改为:
train_loader = DataLoader(dataset.data.x[split_idx["train"]], batch_size=32, shuffle=True, num_workers=0)
即可!!!
通过对数据的shape进行测试,发现正常实现了数据集的划分功能。但是具体的报错原因尚未查明,如果有人能正常运行第一次的代码,那最好。若报错和我的一样,可以参考进行解决。
解决方案二
解决方法一最终只是将数据进行了划分,但是标签并未划分,因此尚未达到我们理想的效果,下面的代码就完成了我们预期的功能。
train_loader = DataLoader(itemgetter(*split_idx['train'])(dataset), batch_size=32, shuffle=True, num_workers=0)
valid_loader = DataLoader(itemgetter(*split_idx['valid'])(dataset), batch_size=32, shuffle=False, num_workers=0)
test_loader = DataLoader(itemgetter(*split_idx['test'])(dataset), batch_size=32, shuffle=False, num_workers=0)
综合比较,建议采用解决方法二。