Pytorch-geometric 图神经网络库 教程 (一)

8 篇文章 9 订阅
1 篇文章 0 订阅

前言

之前我是一直使用DGL这个图神经网络库做图神经网络方面的研究的,DGL也是一个特别漂亮的图神经网络开源库。但是DGL有如下两个缺点:

  1. DGL适合跑那种邻接矩阵是良性定义的graph。良性定义是指 A i j ∈ { 0 , 1 } A_{ij}\in\{0,1\} Aij{0,1},邻居矩阵的每个元素不能是连续的。
  2. DGL的库更新的慢。

此外,DGL主要是基于传统的图计算那套方法来实现的,里面有mailbox之类的,并不是用数学公式来直接表达。

Pytorch-geometric则是可以解决如上的两个缺点。
因此,接下来会有一系列的教程介绍pyg库的使用。

安装

pytorch-geometric需要以pytorch1.7.0以上为基础,因此首先需要安装pytorch 1.7.0或pytorch 1.7.1 或pytorch 1.8.0 或Pytorch 1.8.1,我们选择pytorch 1.7.0版本的吧。
相应版本的pytorch的安装见:https://blog.csdn.net/jmh1996/article/details/115367376

安装pyg:

pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-geometric

其中在实际安装的时候,需要把上面指令的${CUDA}换成具体的值,这些值包括:
在这里插入图片描述
比如,安装cu101版本的,那么实际的安装指令就应该是:

pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-geometric

图数据的表示

图神经网络是跑在图上面的,一般图的定义为 G = ( V , E ) G=(V,E) G=(V,E)包含了顶点和边。
其中每个顶点会有它的特征矩阵 X ∈ R ∣ V ∣ × d X\in R^{|V| \times d} XRV×d,d是特征的维度。每个边也可以有自己的边特征。

在pyg里面,使用torch_geometric.data.Data 实例来封装一个图。
这个类的实例,都会包含以下成员变量:

  • x : 节点的特征矩阵,形状为[节点数,特征维数]
  • edge_index : 用稀疏形式表示的连接矩阵。形状为[2,边数目],(edge[0][k],edge[1][k]) 表示第k条边的源节点与目标节点。
  • edge_attr: 边的特征矩阵,形状为[边数,特征维数]
  • y: 标签信息。对于节点分类,形状应该为[节点数,*];对于图分类,形状应该是[1, *]

举个例子,为了表示如下这个图:
在这里插入图片描述
我们的可以这样定义:

import torch
from torch_geometric.data import Data

edge_index = torch.tensor([[0, 1, 1, 2],
                           [1, 0, 2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)

data = Data(x=x, edge_index=edge_index)

Mini-batches

在pyg里面,为了一个batch一个batch的跑图神经网络,需要把一个batch的所有图都拼接在一起形成一个大图;拼接的时候,主要是把连接矩阵拼接,把节点特征拼接,把标签信息拼接。
在这里插入图片描述
当然在这个大图里面,来自不同样本的节点之间是不存在连接的。
torch_geometric.data.DataLoader 类帮我们实现好了batch里面样本的拼接过程,我们直接拿来用就可以了。
他的用法如下:

from torch_geometric.datasets import TUDataset
from torch_geometric.data import DataLoader

dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES', use_node_attr=True)
loader = DataLoader(dataset, batch_size=32, shuffle=True)

for batch in loader:
    batch

也就是使用上面提到的torch_geometric.data.Data对象是初始化化一个DataLoader对象。
DataLoader需要制定batch_size的大小,以及是否需要随机打乱顺序。不得不说,pytorch还是把很多基础功能都实现好了,蛮方便的。

对于每个batch,它是一张大图,因此也可以像访问torch_geometric.data.Data对象的属性那样去访问这个大图的节点特征矩阵x,边特征矩阵edge_attr,标签信息y等等。
此外每个batch还有一个特殊的列向量:batch.batch,它表示在这个批次的大图里面,各个节点在这个批次的第几个子图里面。也就是说 b a t c h . b a t c h [ i ] = j batch.batch[i]=j batch.batch[i]=j 表示这张大图的第i个节点是来自第j个小图的。
在这里插入图片描述

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Pytorch-geometric是一个基于PyTorch神经网络框架,它提供了大量的神经网络层和数据集,可以方便地进行数据的建模和训练。Pytorch-geometric的主要特点包括: 1. 支持多种神经网络层,包括GCN、GAT、GraphSAGE等。 2. 提供了大量的数据集,包括Cora、CiteSeer、PubMed等常用数据集。 3. 支持GPU加速,可以快速地进行模型训练和推理。 4. 提供了丰富的可视化工具,可以方便地对数据进行可视化和分析。 下面是一个使用Pytorch-geometric进行分类的例子: ```python import torch from torch_geometric.datasets import Planetoid import torch.nn.functional as F from torch_geometric.nn import GCNConv # 加载Cora数据集 dataset = Planetoid(root='/tmp/Cora', name='Cora') data = dataset[0] # 定义GCN模型 class Net(torch.nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = GCNConv(dataset.num_features, 16) self.conv2 = GCNConv(16, dataset.num_classes) def forward(self, x, edge_index): x = F.relu(self.conv1(x, edge_index)) x = F.dropout(x, training=self.training) x = self.conv2(x, edge_index) return F.log_softmax(x, dim=1) # 训练模型 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = Net().to(device) data = data.to(device) optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4) model.train() for epoch in range(200): optimizer.zero_grad() out = model(data.x, data.edge_index) loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask]) loss.backward() optimizer.step() # 测试模型 model.eval() _, pred = model(data.x, data.edge_index).max(dim=1) correct = float(pred[data.test_mask].eq(data.y[data.test_mask]).sum().item()) acc = correct / data.test_mask.sum().item() print('Accuracy: {:.4f}'.format(acc)) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值