PyTorch图神经网络实践(三)使用基准图数据Cora进行半监督节点分类

基准图数据

Pythorch Geometric还包含大量常见的基准数据集,例如Planetoid数据集(包含Cora、Citeseer、Pubmed三个子数据集),来自http://graphkernels.cs.tu-dortmund.de的图分类数据集及其清理后的版本,也就是QM7和QM9数据集,以及一些3D网格/点云数据集,如FAUST、ModelNet10/40和ShapeNet等。

初始化数据集很简单。数据集的初始化将自动下载其原始文件并将其处理为先前描述的数据格式。下面以半监督节点分类任务中常见的Cora数据集为例进行介绍。

Cora数据集

如下所示,Cora数据集中只有一个图,该图包含2708个节点,10556条边,节点类别数为7,特征维数为1433。这里已经对Cora数据集进行了划分,分为了训练集、验证集和测试集。

在这里插入图片描述

Cora数据集中,训练集、验证集和测试集分别包含140、500和1000个节点。这个数值是Planetoid的默认设置,训练集节点数量为每类选20个。下图就是源代码中参数的配置说明。

在这里插入图片描述

具体看看train_mask、test_mask都长什么样子。
在这里插入图片描述

然后看看节点特征和标签。x为节点特征矩阵,维度为2708*1433。y为节点标签向量,维度为2708,类别为7。

在这里插入图片描述

用GCN进行半监督节点分类

接下来就可以构建一个简单的GCN模型,在Cora数据集上进行半监督节点分类。

下面的GCN模型包含两个图卷积层。第一层输入维度为1433(节点特征维度),输出为16(与第一层输出一致),后面接上一个relu激活函数,以及dropout操作。第二层输入维度为16,输出为7(节点标签数量),后接log_softmax函数进行分类。

在这里插入图片描述

模型构建完成后,指定训练设备为GPU(没有的话就用CPU),注意这里默认使用的是0号cuda。如果cuda:0被占用了的话会报错,需要指定其他号码的cuda才能运行。然后,分别将GCN模型以及Cora图数据送入指定的设备。

优化器选择Adam,学习率设置为0.01,权重衰减设置为5e-4。这些都配置好以后就可以训练模型了,epoch设为200,每个epoch后清除上次的梯度信息,然后用nll_loss计算出训练集上的损失,调用backward函数计算出梯度后传回给Adam优化器进行参数更新。

在这里插入图片描述

最后在测试集上评估模型,计算分类正确率accuracy并显示。

在这里插入图片描述

至此,就完成了Cora数据集上的节点分类任务了。


参考文献与相关资料

PyTorch geometric-INTRODUCTION BY EXAMPLE
图卷积网络详细介绍(一)
图卷积网络详细介绍(三)
PyTorch官方中文文档:torch.optim 优化器参数
Pytorch详解NLLLoss和CrossEntropyLoss
pytorch损失函数之nn.CrossEntropyLoss()、nn.NLLLoss()
pytorch中backward()函数详解

  • 6
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值