https://pytorch-geometric.readthedocs.io/en/latest/notes/introduction.html
GCN最简单的实现
PyTorch Geometric中的一个图由的实例描述torch_geometric.data.Data
data.x:具有形状的节点特征矩阵 [num_nodes, num_node_features]
data.edge_index:具有形状和类型的COO格式的图形连接[2, num_edges]torch.long
data.edge_attr:具有形状的边缘特征矩阵 [num_edges, num_edge_features]
data.y:要训练的目标(可以具有任意形状),例如,形状的节点级目标或形状的图形级目标[num_nodes, *][1, *]
data.pos:具有形状的节点位置矩阵 [num_nodes, num_dimensions]
import torch
from torch_geometric.data import Data
edge_index = torch.tensor([[0, 1, 1, 2],
[1, 0, 2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
data = Data(x=x, edge_index=edge_index)
>>> Data(edge_index=[2, 4], x=[3, 1])
注意edge_index,即定义所有边缘的源节点和目标节点的张量不是索引元组的列表。如果要以这种方式编写索引,则应contiguous在将索引传递给数据构造函数之前转置并调用它:
import torch
from torch_geometric.data import Data
edge_index = torch.tensor([[0, 1],
[1, 0],
[1, 2],
[2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
data = Data(x=x, edge_index=edge_index.t().contiguous())
>>> Data(edge_index=[2, 4], x=[3, 1])
通用基准数据集
图分类数据
例如,要加载ENZYMES数据集(由6个类中的600个图组成),请输入:
from torch_geometric.datasets import TUDataset
dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES')
>>> ENZYMES(600)
len(dataset)
>>> 600
dataset.num_classes
>>> 6
dataset.num_node_features
>>> 3
现在,我们可以访问数据集中的所有600个图形:
data = dataset[0]
>>> Data(edge_index=[2, 168], x=[37, 3], y=[1])
data.is_undirected()
>>> True
我们可以看到数据集中的第一个图包含37个节点,每个节点具有3个特征。有168/2 = 84个无向边,并且该图恰好分配给一个类别。此外,数据对象仅包含一个图形级目标。
我们甚至可以使用切片,长或字节张量来分割数据集。 例如,要创建90/10训练/测试对,请输入:
train_dataset = dataset[:540]
>>> ENZYMES(540)
test_dataset = dataset[540:]
>>> ENZYMES(60)
如果不确定在拆分之前是否已经对数据集进行了混洗,则可以通过运行以下命令来随机排列数据集:
dataset = dataset.shuffle()
>>> ENZYMES(600)
这等效于:
perm = torch.randperm(len(dataset))
dataset = dataset[perm]
>> ENZYMES(600)
最简单的GCN代码
import torch
import torch.nn.functional as F
from torch_geometric.nn import GCNConv
class Net(torch.nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = GCNConv(dataset.num_node_features, 16)
self.conv2 = GCNConv(16, dataset.num_classes)
def forward(self, data):
x, edge_index = data.x, data.edge_index
x = self.conv1(x, edge_index)
x = F.relu(x)
x = F.dropout(x, training=self.training)
x = self.conv2(x, edge_index)
return F.log_softmax(x, dim=1)
构造函数定义了GCNConv两层,它们在我们的网络的前向传递中被调用。请注意,非线性未集成在conv调用中,因此需要在以后应用(在PyTorch Geometric中,所有运算符都保持一致)。在这里,我们选择使用ReLU作为介于两者之间的中间非线性,最后输出整个类数的softmax分布。让我们在训练节点上训练这个模型200个纪元:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = Net().to(device)
data = dataset[0].to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)
model.train()
for epoch in range(200):
optimizer.zero_grad()
out = model(data)
loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask])
loss.backward()
optimizer.step()
最后,我们可以在测试节点上评估我们的模型:
model.eval()
_, pred = model(data).max(dim=1)
correct = int(pred[data.test_mask].eq(data.y[data.test_mask]).sum().item())
acc = correct / int(data.test_mask.sum())
print('Accuracy: {:.4f}'.format(acc))
>>> Accuracy: 0.8150