PyG文档之四:构建自己的数据集

尽管PyTorch Geometric已包含许多有用的数据集,但我们有时候还是需要使用自记录或非公开可用数据创建自己的数据集。
自己构建数据集其实是很简单的,你可以通过源码来查看如何构建数据集。也可以通过我们的简单介绍来初步学习自己构建数据集。
我们为数据集提供了两个抽象类:torch_geometric.data.Dataset和torch_geometric.data.InMemoryDataset。 后者继承自前者,若整个数据集都能放进内存,则应该使用后者。

按照tochvision约定,每个数据集都会设置一个根文件夹。在此文件夹下,又设有raw_dir用来存放下载的原始数据,processede_dir用来保存处理过的数据集。
此外,也可以为每个数据设置transform,pre_transform,pre_filter函数,默认是None.

  • transform:在访问之前动态转换数据对象,一般用来做数据增强。
  • pre_transform:用于讲数据对象保存到磁盘之前的转换,建议用它来做繁重的数据预处理(只需执行一次)
  • pre_filter:可以在保存数据之前手动过滤掉特定的数据对象。

创建内存数据集

为了创建torch_geometric.data.InMemoryDataset,需要实现四种基本方法:

  • torch_geometric.data.InMemoryDataset.raw_file_names():储存源文件的列表。如果这些文件都在raw_dir中找到了,就会跳过下载。
  • torch_geometric.data.InMemoryDataset.processed_file_names():储存处理后的文件列表,若全部找到就跳过预处理。<
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值