【图神经网络基础】认识数据集--同质数据集PubMed

最新推荐文章于 2024-05-21 23:04:25 发布

鳗小鱼

最新推荐文章于 2024-05-21 23:04:25 发布

阅读量2.8k

点赞数 28

分类专栏：图神经网络文章标签：人工智能机器学习深度学习神经网络聚类知识图谱数据挖掘

本文链接：https://blog.csdn.net/BetrayFree/article/details/139070053

版权

图神经网络专栏收录该内容

11 篇文章

订阅专栏

PubMed 数据集是另一个广泛用于图神经网络（GNN）研究的基准数据集，主要用于节点分类任务。以下是关于 PubMed 数据集的详细介绍：

数据集概述

PubMed 数据集由生物医学文献组成，每篇文献被视为一个节点，引用关系被视为边。该数据集包含三类糖尿病相关的论文，每个节点都带有特征向量和标签。数据集的主要任务是根据节点的特征和图结构对节点进行分类。

数据集组成

节点（Nodes）：
- 数量：19,717
- 代表：每个节点代表一篇生物医学文献。
- 属性：每个节点有一个500维的浮点特征向量，表示该文献的内容。特征向量是由论文的词频-逆文档频率（TF-IDF）表示的。
边（Edges）：
- 数量：44,338
- 代表：每条边表示一篇文献对另一篇文献的引用关系。
- 无向图：边是无向的，即引用关系被视为对称的。
标签（Labels）：
- 类别数：3
- 类别标签：每个节点（文献）属于一个类别，共有三类：
  1. Diabetes Mellitus, Experimental
  2. Diabetes Mellitus Type 1
  3. Diabetes Mellitus Type 2

数据集统计

节点数：19,717
边数：44,338
特征维度：500
类别数：3

数据表示

PubMed 数据集通常以图的形式表示，其中包含以下内容：

邻接矩阵（Adjacency Matrix）：
- 表示：图的结构，其中 A[i,j]=1 表示节点 i 和节点 j 之间有边，A[i,j]=0 表示无边。
特征矩阵（Feature Matrix）：
- 表示：节点特征，其中每行对应一个节点的特征向量。
标签矩阵（Label Matrix）：
- 表示：每个节点的类别标签。

使用场景

PubMed 数据集主要用于以下研究场景：

节点分类（Node Classification）：
- 目标：基于节点的特征和图结构，预测节点的类别标签。
- 常用模型：GCN（Graph Convolutional Network）、GAT（Graph Attention Network）等。
图嵌入（Graph Embedding）：
- 将节点嵌入到低维向量空间中，以便在嵌入空间中进行分类、聚类等任务。
图神经网络模型评估（Evaluation of GNN Models）：
- 评估各种 GNN 模型的性能。

常用处理步骤

读取特征矩阵、邻接矩阵和标签。
对特征进行标准化处理。
划分训练集、验证集和测试集。
构建 GNN 模型。
使用训练集进行模型训练，并在验证集上调参。
在测试集上评估模型性能。
使用准确率（Accuracy）、精确率（Precision）、召回率（Recall）等指标进行评估。

示例代码

以下是一个使用 PyTorch Geometric 进行节点分类的简单示例，使用 PubMed 数据集：

import torch
import torch.nn.functional as F
from torch_geometric.datasets import Planetoid
import torch_geometric.transforms as T
from torch_geometric.nn import GCNConv

# 加载 PubMed 数据集
dataset = Planetoid(root='/tmp/PubMed', name='PubMed', transform=T.NormalizeFeatures())

class GCN(torch.nn.Module):
    def __init__(self):
        super(GCN, self).__init__()
        self.conv1 = GCNConv(dataset.num_features, 16)
        self.conv2 = GCNConv(16, dataset.num_classes)

    def forward(self, data):
        x, edge_index = data.x, data.edge_index
        x = self.conv1(x, edge_index)
        x = F.relu(x)
        x = F.dropout(x, training=self.training)
        x = self.conv2(x, edge_index)
        return F.log_softmax(x, dim=1)

# 初始化模型、优化器和损失函数
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = GCN().to(device)
data = dataset[0].to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)

# 训练模型
def train():
    model.train()
    optimizer.zero_grad()
    out = model(data)
    loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask])
    loss.backward()
    optimizer.step()

# 测试模型
def test():
    model.eval()
    _, pred = model(data).max(dim=1)
    correct = int(pred[data.test_mask].eq(data.y[data.test_mask]).sum().item())
    acc = correct / int(data.test_mask.sum())
    return acc

for epoch in range(200):
    train()
    acc = test()
    print(f'Epoch {epoch}: Accuracy: {acc:.4f}')

这个示例展示了如何使用 PyTorch Geometric 加载 PubMed 数据集，并训练一个简单的图卷积网络（GCN）进行节点分类。