PyTorch图神经网络实践（五）链路预测

最新推荐文章于 2025-03-25 13:14:20 发布

置顶

Javy Wang

最新推荐文章于 2025-03-25 13:14:20 发布

阅读量2.2w

点赞数 41

分类专栏： # 图神经网络 # PyTorch_geometric 文章标签： pytorch 图神经网络链路预测 link prediction

本文链接：https://blog.csdn.net/DSTJWJW/article/details/109451034

版权

链路预测是网络科学里面的一个经典任务，其目的是利用当前已获取的网络数据（包含结构信息和属性信息）来预测网络中会出现哪些新的连边。

本文计划利用networkx包中的网络来进行链路预测，因为目前PyTorch Geometric包中封装的网络还不够多，而很多网络方便用networkx包生成或者处理。

环境配置

首先，安装一个工具包，DeepSNAP。这个包提供了networkx到PyTorch Geometric的接口，可以方便地将networkx中的网络转换成PyTorch Geometric所要求的数据格式。DeepSNAP有两种安装方法：

第一种安装方法

$ pip install deepsnap

第二种安装方法

$ git clone https://github.com/snap-stanford/deepsnap
$ cd deepsnap
$ pip install .

在我服务器上第一种方法报错，使用第二种方法成功了。

其他环境配置参考我之前的系列博文。

链路预测

使用图神经网络进行链路预测包含以下基本步骤：

导入图数据
分割数据集（划分训练边、测试边）
标注正边、采样负边
训练神经网络
测试模型效果

链路预测最开始是一个无监督学习任务，即根据已经看到的网络结构（或者其他属性信息）来推断未知连边是否存在，但是这样的话就比较难以验证。只有在动态网络（或称时序网络）中才会有这样的数据以供实验验证，可以用前一段时间的网络结构来预测后一段时间的网络结构。然而，很多网络没有时间信息，在这样的网络中如何验证呢？

后来，学者提出了用有监督的方式来进行链路预测，也就是将其视为二分类任务，将网络中存在的边都视为正样本（即正边），不存在的连边都当作负样本（即负边）。然后，将这些边分为两部分，一部分为训练集，一部分为测试集。训练集和测试集中都包含正边和负边，目的是在训练集上训练出一个模型能够准确分类这两种边，然后再在测试集上验证效果。

然而，大多数网络都是稀疏的，也就是说存在边的数量差不多是节点数量的几倍左右，而网络中不存在的边的数量差不多是节点数量的平方（在无向网络中，不存在边的数量等于 $(n - 1) n / 2 - m$ ，其中 $n$ 为节点数， $m$ 为边数)。这样不存边的数量就远远大于存在边的数量，在有监督学习中就意味着负样本远大于正样本，类别极其不平衡。怎么解决这个问题呢？大家很自然地想到了负采样，就是每次训练的时候随机抽取与正样本等比例的负样本，这样就避免了类别不平衡。

训练结束后，就可以用测试集中的正边和负边来验证模型的效果了。

代码解读

完整代码如下

import networkx as nx
from deepsnap.graph import Graph
import torch
import torch.nn.functional as F
from sklearn.metrics import roc_auc_score
from torch_geomet

最低0.47元/天解锁文章