简介
Graph Neural Networks 简称 GNN,称为图神经网络,是深度学习中近年来一个比较受关注的领域。近年来 GNN 在学术界受到的关注越来越多,与之相关的论文数量呈上升趋势,GNN 通过对信息的传递,转换和聚合实现特征的提取,类似于传统的 CNN,只是 CNN 只能处理规则的输入,如图片等输入的高、宽和通道数都是固定的,而 GNN 可以处理不规则的输入,如点云等。 可查看【GNN】万字长文带你入门 GCN。
而 PyTorch Geometric Library (简称 PyG) 是一个基于 PyTorch 的图神经网络库,地址是:https://github.com/rusty1s/pytorch_geometric。它包含了很多 GNN 相关论文中的方法实现和常用数据集,并且提供了简单易用的接口来生成图,因此对于复现论文来说也是相当方便。用法大多数和 PyTorch 很相近,因此熟悉 PyTorch 的同学使用这个库可以很快上手。
torch_geometric.data.Data
节点和节点之间的边构成了图。所以在 PyG 中,如果你要构建图,那么需要两个要素:节点和边。PyG 提供了torch_geometric.data.Data
(下面简称Data
) 用于构建图,包括 5 个属性,每一个属性都不是必须的,可以为空。
- x: 用于存储每个节点的特征,形状是
[num_nodes, num_node_features]
。 - edge_index: 用于存储节点之间的边,形状是
[2, num_edges]
。 - pos: 存储节点的坐标,形状是
[num_nodes, num_dimensions]
。 - y: 存储样本标签。如果是每个节点都有标签,那么形状是
[num_nodes, *]
;如果是整张图只有一个标签,那么形状是[1, *]
。 - edge_attr: 存储边的特征。形状是
[num_edges, num_edge_features]
。
实际上,Data
对象不仅仅限制于这些属性,我们可以通过data.face
来扩展Data
,以张量保存三维网格中三角形的连接性。
需要注意的的是,在Data
里包含了样本的 label,这意味和 PyTorch 稍有不同。在PyTorch
中,我们重写Dataset
的__getitem__()
,根据 index 返回对应的样本和 label。在 PyG 中,我们使用的不是这种写法,而是在get()
函数中根据 index 返回torch_geometric.data.Data
类型的数据,在Data
里包含了数据和 label。
下面一个例子是未加权无向图 ( 未加权指边上没有权值 ),包括 3 个节点和 4 条边。
![](https://image.zhangxiann.com/20200522215349.png)
由于是无向图,因此有 4 条边:(0 -> 1), (1 -> 0), (1 -> 2), (2 -> 1)。每个节点都有自己的特征。上面这个图可以使用`torch_geometric.data.Data`来表示如下:
import torch
from torch_geometric.data import Data
# 由于是无向图,因此有 4 条边:(0 -> 1), (1 -> 0), (1 -> 2), (2 -> 1)
edge_index = torch.tensor([[0, 1, 1, 2],
[1, 0, 2, 1]], dtype=torch.long)
# 节点的特征
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
data = Data(x=x, edge_index=edge_index)
注意edge_index
中边的存储方式,有两个list
,第 1 个list
是边的起始点,第 2 个list
是边的目标节点。注意与下面的存储方式的区别。
import torch
from torch_geometric.data import Data
edge_index = torch.tensor([[0, 1],
[1, 0],
[1, 2],
[2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
data = Data(x=x, edge_index=edge_index.t().contiguous())
这种情况edge_index
需要先转置然后使用contiguous()
方法。关于contiguous()
函数的作用,查看 PyTorch中的contiguous。
最后再复习一遍,Data
中最基本的 4 个属性是x
、edge_index
、pos
、y
,我们一般都需要这 4 个参数。
有了Data
,我们可以创建自己的Dataset
,读取并返回Data
了。
Dataset 与 DataLoader
PyG 的 Dataset
继承自torch.utils.data.Dataset
,自带了很多图数据集,我们以TUDataset
为例,通过以下代码就可以加载数据集,root
参数设置数据下载的位置。通过索引可以访问每一个数据。
from torch_geometric.datasets import TUDataset
dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES')
data = dataset[0]
在一个图中,由edge_index
和edge_attr
可以决定所有节点的邻接矩阵。PyG 通过创建稀疏的对角邻接矩阵,并在节点维度中连接特征矩阵和 label 矩阵,实现了在 mini-batch 的并行化。PyG 允许在一个 mini-batch 中的每个Data
(图) 使用不同数量的节点和边。
![](https://image.zhangxiann.com/20200522225100.png)
自定义 Dataset
尽管 PyG 已经包含许多有用的数据集,我们也可以通过继承torch_geometric.data.Dataset
使用自己的数据集。提供 2 种不同的Dataset
:
- InMemoryDataset:使用这个
Dataset
会一次性把数据全部