PyTorch图神经网络实践(五)链路预测

链路预测是网络科学里面的一个经典任务,其目的是利用当前已获取的网络数据(包含结构信息和属性信息)来预测网络中会出现哪些新的连边。

本文计划利用networkx包中的网络来进行链路预测,因为目前PyTorch Geometric包中封装的网络还不够多,而很多网络方便用networkx包生成或者处理。

环境配置

首先,安装一个工具包,DeepSNAP。这个包提供了networkx到PyTorch Geometric的接口,可以方便地将networkx中的网络转换成PyTorch Geometric所要求的数据格式。DeepSNAP有两种安装方法:

第一种安装方法

$ pip install deepsnap

第二种安装方法

$ git clone https://github.com/snap-stanford/deepsnap
$ cd deepsnap
$ pip install .

在我服务器上第一种方法报错,使用第二种方法成功了。

其他环境配置参考我之前的系列博文。

链路预测

使用图神经网络进行链路预测包含以下基本步骤:

  1. 导入图数据
  2. 分割数据集(划分训练边、测试边)
  3. 标注正边、采样负边
  4. 训练神经网络
  5. 测试模型效果

链路预测最开始是一个无监督学习任务,即根据已经看到的网络结构(或者其他属性信息)来推断未知连边是否存在,但是这样的话就比较难以验证。只有在动态网络(或称时序网络)中才会有这样的数据以供实验验证,可以用前一段时间的网络结构来预测后一段时间的网络结构。然而,很多网络没有时间信息,在这样的网络中如何验证呢?

后来,学者提出了用有监督的方式来进行链路预测,也就是将其视为二分类任务,将网络中存在的边都视为正样本(即正边),不存在的连边都当作负样本(即负边)。然后,将这些边分为两部分,一部分为训练集,一部分为测试集。训练集和测试集中都包含正边和负边,目的是在训练集上训练出一个模型能够准确分类这两种边,然后再在测试集上验证效果。

然而,大多数网络都是稀疏的,也就是说存在边的数量差不多是节点数量的几倍左右,而网络中不存在的边的数量差不多是节点数量的平方(在无向网络中,不存在边的数量等于 ( n − 1 ) n / 2 − m (n-1)n/2-m (n1)n/2m,其中 n n n为节点数, m m m为边数)。这样不存边的数量就远远大于存在边的数量,在有监督学习中就意味着负样本远大于正样本,类别极其不平衡。怎么解决这个问题呢?大家很自然地想到了负采样,就是每次训练的时候随机抽取与正样本等比例的负样本,这样就避免了类别不平衡。

训练结束后,就可以用测试集中的正边和负边来验证模型的效果了。

代码解读

完整代码如下

import networkx as nx
from deepsnap.graph import Graph
import torch
import torch.nn.functional as F
from sklearn.metrics import roc_auc_score
from torch_geomet
评论 38
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值