Texas 数据集是图神经网络(GNN)研究中经常使用的基准数据集之一。它源自美国德克萨斯大学的网页链接数据,包含网页和它们之间的超链接关系。该数据集特别用于节点分类任务,即根据网页内容和链接结构对网页进行分类。
数据集概述
-
节点(Webpages):
- 每个节点代表一个网页。
- 每个网页有一个特征向量,通常是词袋模型(Bag of Words)表示的网页内容。
-
边(Hyperlinks):
- 每条边表示一个网页到另一个网页的超链接。
- 边是有向的,即超链接有方向性。
-
标签(Labels):
- 每个网页被标注为5个类别之一。
数据集统计
- 节点数:183
- 边数:295
- 特征维度:1703
- 类别数:5
数据表示
特征矩阵(Feature Matrix):表示节点特征,其中每行对应一个节点的特征向量。
邻接矩阵(Adjacency Matrix):表示图的结构,其中 A[i,j]=1 表示节点 i 和节点 j 之间有边, A[i,j]=0 表示无边。
使用场景
Texas 数据集主要用于以下研究场景:
- 节点分类:根据网页的内容和链接关系,预测网页的类别。
- 图嵌入:将节点嵌入到低维向量空间中,以便在嵌入空间中进行分类、聚类等任务。
- 图神经网络模型评估:评估各种 GNN 模型的性能,如 GCN(Graph Convolutional Network)、GAT(Graph Attention Network)等。
常用处理步骤
-
数据预处理:
- 读取特征矩阵、邻接矩阵和标签。
- 对特征进行标准化处理。
- 划分训练集、验证集和测试集。
-
模型训练:
- 构建 GNN 模型。
- 使用训练集进行模型训练,并在验证集上调参。
-
模型评估:
- 在测试集上评估模型性能。
- 使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等指标进行评估。
实验和性能
在使用 Texas 数据集进行实验时,研究人员通常会比较不同 GNN 模型在节点分类任务上的性能。常见的评估指标包括准确率(Accuracy)、宏观 F1 值(Macro F1-score)等。通过这些指标,可以评估模型在处理小规模图数据集上的表现。
参考文献
- http://eliassi.org/papers/ai-mag-tr08.pdfhttp://eliassi.org/papers/ai-mag-tr08.pdf
- Texas (48%/32%/20% fixed splits) Dataset | Papers With CodeNode classification on Texas with the fixed 48%/32%/20% splits provided by Geom-GCN.https://paperswithcode.com/dataset/texas-48-32-20-fixed-splits
结论
“万一呢?”
“啥万一呢?”
“碰到个傻子!”