Pytorch-geometric 图神经网络库教程（一）

最新推荐文章于 2024-05-17 10:13:54 发布

Icoding_F2014

最新推荐文章于 2024-05-17 10:13:54 发布

阅读量3.2k

点赞数 2

分类专栏： pyg pytorch 图神经网络

本文链接：https://blog.csdn.net/jmh1996/article/details/115447620

版权

pytorch 同时被 3 个专栏收录

11 篇文章 1 订阅

订阅专栏

图神经网络

8 篇文章 9 订阅

订阅专栏

pyg

1 篇文章 0 订阅

订阅专栏

前言

之前我是一直使用DGL这个图神经网络库做图神经网络方面的研究的，DGL也是一个特别漂亮的图神经网络开源库。但是DGL有如下两个缺点：

DGL适合跑那种邻接矩阵是良性定义的graph。良性定义是指 $A_{ij}\in\{0,1\}$ ，邻居矩阵的每个元素不能是连续的。
DGL的库更新的慢。

此外，DGL主要是基于传统的图计算那套方法来实现的，里面有mailbox之类的，并不是用数学公式来直接表达。

Pytorch-geometric则是可以解决如上的两个缺点。
因此，接下来会有一系列的教程介绍pyg库的使用。

安装

pytorch-geometric需要以pytorch1.7.0以上为基础，因此首先需要安装pytorch 1.7.0或pytorch 1.7.1 或pytorch 1.8.0 或Pytorch 1.8.1，我们选择pytorch 1.7.0版本的吧。
相应版本的pytorch的安装见：https://blog.csdn.net/jmh1996/article/details/115367376

安装pyg:

pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-geometric

其中在实际安装的时候，需要把上面指令的${CUDA}换成具体的值，这些值包括：
在这里插入图片描述
比如，安装cu101版本的，那么实际的安装指令就应该是：

pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-geometric

图数据的表示

图神经网络是跑在图上面的，一般图的定义为 $G = (V, E)$ 包含了顶点和边。
其中每个顶点会有它的特征矩阵 $X\in R^{|V| \times d}$ ，d是特征的维度。每个边也可以有自己的边特征。

在pyg里面，使用torch_geometric.data.Data 实例来封装一个图。
这个类的实例，都会包含以下成员变量：

x : 节点的特征矩阵，形状为[节点数，特征维数]
edge_index : 用稀疏形式表示的连接矩阵。形状为[2,边数目]，(edge[0][k],edge[1][k]) 表示第k条边的源节点与目标节点。
edge_attr: 边的特征矩阵，形状为[边数，特征维数]
y: 标签信息。对于节点分类，形状应该为[节点数，*]；对于图分类，形状应该是[1， *]

举个例子，为了表示如下这个图：
在这里插入图片描述
我们的可以这样定义：

import torch
from torch_geometric.data import Data

edge_index = torch.tensor([[0, 1, 1, 2],
                           [1, 0, 2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)

data = Data(x=x, edge_index=edge_index)

Mini-batches

在pyg里面，为了一个batch一个batch的跑图神经网络，需要把一个batch的所有图都拼接在一起形成一个大图；拼接的时候，主要是把连接矩阵拼接，把节点特征拼接，把标签信息拼接。
在这里插入图片描述
当然在这个大图里面，来自不同样本的节点之间是不存在连接的。
torch_geometric.data.DataLoader 类帮我们实现好了batch里面样本的拼接过程，我们直接拿来用就可以了。
他的用法如下：

from torch_geometric.datasets import TUDataset
from torch_geometric.data import DataLoader

dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES', use_node_attr=True)
loader = DataLoader(dataset, batch_size=32, shuffle=True)

for batch in loader:
    batch

也就是使用上面提到的torch_geometric.data.Data对象是初始化化一个DataLoader对象。
DataLoader需要制定batch_size的大小，以及是否需要随机打乱顺序。不得不说，pytorch还是把很多基础功能都实现好了，蛮方便的。

对于每个batch,它是一张大图，因此也可以像访问torch_geometric.data.Data对象的属性那样去访问这个大图的节点特征矩阵x,边特征矩阵edge_attr，标签信息y等等。
此外每个batch还有一个特殊的列向量：batch.batch，它表示在这个批次的大图里面，各个节点在这个批次的第几个子图里面。也就是说 $b a t c h . b a t c h [i] = j$ 表示这张大图的第i个节点是来自第j个小图的。
在这里插入图片描述

Icoding_F2014

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
Pytorch-geometric 图神经网络库教程（一）

前言之前我是一直使用DGL这个图神经网络库做图神经网络方面的研究的，DGL也是一个特别漂亮的图神经网络开源库。但是DGL有如下两个缺点：DGL适合跑那种邻接矩阵是良性定义的graph。良性定义是指Aij∈{0,1}A_{ij}\in\{0,1\}Aij∈{0,1}，邻居矩阵的每个元素不能是连续的。DGL的库更新的慢。此外，DGL主要是基于传统的图计算那套方法来实现的，里面有mailbox之类的，并不是用数学公式来直接表达。Pytorch-geometric则是可以解决如上的两个缺点。因此，
复制链接

扫一扫