图卷积神经网络GCN之节点分类

使用pytorch 的相关神经网络库, 手动编写图卷积神经网络模型(GCN), 并在相应的图结构数据集上完成节点分类任务。本次实验的内容如下:

  1. 实验准备:搭建基于GPU的pytorch实验环境。
  2. 数据下载与预处理:使用torch_geometric.datasets、torch_geometric.loader所提供的标准数据接口Planetoid、PPI、DataLoader,将原始数据处理为方便模型训练脚本所使用的数据结构。
  3. 图网络模型:手动搭建GCN模型。
  4. 节点分类:在给定数据集上按照节点分类任务的需求自行划分训练集、验证集、测试集,并用搭建好的GCN模型进行节点分类。
  5. 模型训练:在给定数据集上训练模型并分析结果。

对应的源代码下载链接 :

https://download.csdn.net/download/m0_61142248/87657656

1.搭建实验环境

搭建GPU版Pytorch实验环境如下:

名称

版本

备注

Python

3.8

Pytorch

1.12.1

GPU

RTX2060

安装对应版本的cuda

 2.图网络模型搭建

参考GCN论文,GCN的核心原理公式为 H^{l+1}=\sigma\left ( D^{1/2}AD^{-1/2}H^{l}W^{l} \right )。因为邻接矩阵在迭代的每一步都是相同的,可以将上述公式中不变的部分提取出来提前处理,迭代过程中只计算变化部分,从而减少运算量。因此将上述公式分解为两步:

  1. A=D^{^{1/2}}AdjD^{-1/2}
  2. H^{l+1}=AH^{l}W^{l}   

其中,Adj 是图的原始邻接矩阵,D是度矩阵, 的运算在网络模型训练前实现,A是经过处理后的邻接矩阵。

在图数据的处理中实现A=D^{^{1/2}}AdjD^{-1/2}计算,代码如下:

在网络模型中只实现 H^{l+1}=AH^{l}W^{l},另外需要定义模型参数W等初始化参数以及forward函数。本次实验要求对自环、层数、 DropEdge、PairNorm、激活函数等因素分析,因此在模型 中加入了这些参数,另外模型中的in_features和out_features分别表示输入特征维度和输出特征维度。代码如下:

子函数reset_parameters代码如下:

forward函数实现H^{l+1}=AH^{l}W^{l}计算,其中input为输入特征,adj为输入邻接矩阵(经过 运算处理),bias是偏置项,output为输出。具体代码如下:

此外,参考了PairNorm和DropEdge的论文和代码来实现PairNorm和DropEdge函数。具体代码如下:

PairNorm:

DropEdge:

3.节点分类模型搭建

在节点分类任务中搭建了一个由前述GCN网络组成的多层GCN分类网络。节点分类模型初始化函数如下:

其中各参数含义如下:

  • nfeat为输入特征维度;
  • nhid为GCN隐藏层维度;
  • nclass为输出特征维度;
  • dropout为特征的dropout率;
  • SelfLoop为是否加自环的标志;
  • num_layers表示该分类模型的总层数;
  • norm_mode表示是否使用batchnorm;
  • use_PairNorm表示是否使用PairNorm;
  • activation为激活函数的参数,表示使用哪种激活函数。

节点分类模型中间层的激活函数由输入参数‘activation’确定,输出的特征维度为‘nhid’。最后一层也是GCN层,输出维度为‘nclass’,最后的输出增加了log_softmax()函数。

Cora、Citeseer数据集的节点分类模型的forward函数代码如下:

 4.Cora、Citeseer数据集预处理

Cora、Citeseer数据集是比较常用的数据集,直接百度即可下载。本文中读入的数据格式如下:

 处理代码如下,其中对test_idx进行排序是为了避免邻接矩阵和节点特征矩阵在测试集部分错位。

训练、验证和测试集的划分:

数据集默认划分了训练、验证和测试集,但训练集较小,因此对数据集进行了重新划分。allx、ally和tx、ty可以构成完整的数据集,其中测试集保持不变仍为tx、ty。取allx、ally中的最后500个作为验证集,剩余的都作为训练集。如此,对于cora数据集划分如下训练集(1208)、验证集(500)、测试集(1000)。对于citeseer数据集划分如下训练集(1812)、验证集(500)、测试集(1015)。

图、邻接矩阵、特征和标签的处理以及训练、验证和测试集的划分代码实现如下:

5.训练与分析

依据实验要求对不同参数进行了测试分析。虽然不同参数配置下可以通过调整学习率等超参数来提高性能,但为了便于比较,训练时采取了只变动比较项,其余部分参数固定的方法来分析。其中所有测试下都固定不变的参数如下表所示:

固定不变的训练参数

名称

lr

weight_decay

hidden 

lradjust

dropout

epochs

数值

0.01

5e-3

256

Ture

0.8

400

测试了GCN层数为2、4、8、16、32层时图网络模型在Cora、Citeseer和PPI数据集上的分类性能以及自环、batch_norm、PairNorm和激活函数等因素对分类性能的影响。

在Cora数据集和Citeseer数据集的实验中,使用Adam优化器。学习率初始值为0.01,采用了多步衰减策略,参数为“milestones=[150, 250, 350], gamma=0.5”。损失函数使用torch.nn.functional中的nll_loss。性能评价指标为acc。

最终得到的最佳的性能和对应的训练参数如下:

对于数据集cora,在测试集上获得的分类acc指标为0.853,设置训练参数如下:

名称

lr

weight_decay

hidden 

lradjust

dropout

epochs

数值

0.01

5e-3

256

Ture

0.8

100

名称

num_layers

add_self_loops

add_bn

use_pairnorm

drop_edge

activation

数值

4

FALSE

FALSE

None

1

linear

 对于数据集citeseer,在测试集上获得的分类acc指标为0.783,设置训练参数如下:

名称

lr

weight_decay

hidden 

lradjust

dropout

epochs

数值

0.01

5e-3

256

Ture

0.8

100

名称

num_layers

add_self_loops

add_bn

use_pairnorm

drop_edge

activation

数值

4

FALSE

TRUE

None

1

tanh

  • 0
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

动力澎湃

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值