GCN最简单的实现

介壳

已于 2023-06-06 10:55:17 修改

阅读量317

点赞数

分类专栏：图神经网络文章标签：人工智能

于 2021-05-24 20:08:19 首次发布

本文链接：https://blog.csdn.net/qq_40515250/article/details/117230985

版权

图神经网络专栏收录该内容

5 篇文章 0 订阅

订阅专栏

这篇博客介绍了如何使用PyTorchGeometric库实现图卷积网络（GCN）。首先，展示了图数据的结构，包括节点特征、边索引和目标。接着，通过一个简单的例子解释了如何创建和操作图数据。然后，介绍了通用的图分类数据集TUDataset，并展示了数据集的加载和划分方法。最后，给出了一个两层GCN的实现，并进行了训练和测试，验证了模型在图分类任务上的效果。

摘要由CSDN通过智能技术生成

https://pytorch-geometric.readthedocs.io/en/latest/notes/introduction.html

GCN最简单的实现

PyTorch Geometric中的一个图由的实例描述torch_geometric.data.Data
data.x：具有形状的节点特征矩阵 [num_nodes, num_node_features]
data.edge_index：具有形状和类型的COO格式的图形连接[2, num_edges]torch.long
~~data.edge_attr：具有形状的边缘特征矩阵 [num_edges, num_edge_features]~~
data.y：要训练的目标（可以具有任意形状），例如，形状的节点级目标或形状的图形级目标[num_nodes, *][1, *]
~~data.pos：具有形状的节点位置矩阵 [num_nodes, num_dimensions]~~

在这里插入图片描述

import torch
from torch_geometric.data import Data
edge_index = torch.tensor([[0, 1, 1, 2],
                           [1, 0, 2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
data = Data(x=x, edge_index=edge_index)
>>> Data(edge_index=[2, 4], x=[3, 1])

注意edge_index，即定义所有边缘的源节点和目标节点的张量不是索引元组的列表。如果要以这种方式编写索引，则应contiguous在将索引传递给数据构造函数之前转置并调用它：

import torch
from torch_geometric.data import Data
edge_index = torch.tensor([[0, 1],
                           [1, 0],
                           [1, 2],
                           [2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
data = Data(x=x, edge_index=edge_index.t().contiguous())
>>> Data(edge_index=[2, 4], x=[3, 1])

通用基准数据集

图分类数据
例如，要加载ENZYMES数据集（由6个类中的600个图组成），请输入：

from torch_geometric.datasets import TUDataset
dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES')
>>> ENZYMES(600)
len(dataset)
>>> 600
dataset.num_classes
>>> 6
dataset.num_node_features
>>> 3

现在，我们可以访问数据集中的所有600个图形：

data = dataset[0]
>>> Data(edge_index=[2, 168], x=[37, 3], y=[1])
data.is_undirected()
>>> True

我们可以看到数据集中的第一个图包含37个节点，每个节点具有3个特征。有168/2 = 84个无向边，并且该图恰好分配给一个类别。此外，数据对象仅包含一个图形级目标。
我们甚至可以使用切片，长或字节张量来分割数据集。例如，要创建90/10训练/测试对，请输入：

train_dataset = dataset[:540]
>>> ENZYMES(540)
test_dataset = dataset[540:]
>>> ENZYMES(60)

如果不确定在拆分之前是否已经对数据集进行了混洗，则可以通过运行以下命令来随机排列数据集：

dataset = dataset.shuffle()
>>> ENZYMES(600)

这等效于：

perm = torch.randperm(len(dataset))
dataset = dataset[perm]
>> ENZYMES(600)

最简单的GCN代码

import torch
import torch.nn.functional as F
from torch_geometric.nn import GCNConv
class Net(torch.nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = GCNConv(dataset.num_node_features, 16)
        self.conv2 = GCNConv(16, dataset.num_classes)
    def forward(self, data):
        x, edge_index = data.x, data.edge_index
        x = self.conv1(x, edge_index)
        x = F.relu(x)
        x = F.dropout(x, training=self.training)
        x = self.conv2(x, edge_index)
        return F.log_softmax(x, dim=1)

构造函数定义了GCNConv两层，它们在我们的网络的前向传递中被调用。请注意，非线性未集成在conv调用中，因此需要在以后应用（在PyTorch Geometric中，所有运算符都保持一致）。在这里，我们选择使用ReLU作为介于两者之间的中间非线性，最后输出整个类数的softmax分布。让我们在训练节点上训练这个模型200个纪元：

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = Net().to(device)
data = dataset[0].to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)

model.train()
for epoch in range(200):
    optimizer.zero_grad()
    out = model(data)
    loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask])
    loss.backward()
    optimizer.step()

最后，我们可以在测试节点上评估我们的模型：

model.eval()
_, pred = model(data).max(dim=1)
correct = int(pred[data.test_mask].eq(data.y[data.test_mask]).sum().item())
acc = correct / int(data.test_mask.sum())
print('Accuracy: {:.4f}'.format(acc))
>>> Accuracy: 0.8150