【图神经网络基础】认识数据集--异质数据集Texas

鳗小鱼

于 2024-05-22 16:41:07 发布

阅读量1.1k

点赞数 13

分类专栏：图神经网络文章标签：神经网络人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BetrayFree/article/details/139068456

版权

图神经网络专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Texas 数据集是图神经网络（GNN）研究中经常使用的基准数据集之一。它源自美国德克萨斯大学的网页链接数据，包含网页和它们之间的超链接关系。该数据集特别用于节点分类任务，即根据网页内容和链接结构对网页进行分类。

数据集概述

节点（Webpages）：
- 每个节点代表一个网页。
- 每个网页有一个特征向量，通常是词袋模型（Bag of Words）表示的网页内容。
边（Hyperlinks）：
- 每条边表示一个网页到另一个网页的超链接。
- 边是有向的，即超链接有方向性。
标签（Labels）：
- 每个网页被标注为5个类别之一。

数据集统计

节点数：183
边数：295
特征维度：1703
类别数：5

数据表示

特征矩阵（Feature Matrix）：表示节点特征，其中每行对应一个节点的特征向量。

邻接矩阵（Adjacency Matrix）：表示图的结构，其中 A[i,j]=1 表示节点 i 和节点 j 之间有边， A[i,j]=0 表示无边。

使用场景

Texas 数据集主要用于以下研究场景：

节点分类：根据网页的内容和链接关系，预测网页的类别。
图嵌入：将节点嵌入到低维向量空间中，以便在嵌入空间中进行分类、聚类等任务。
图神经网络模型评估：评估各种 GNN 模型的性能，如 GCN（Graph Convolutional Network）、GAT（Graph Attention Network）等。

常用处理步骤

数据预处理：
- 读取特征矩阵、邻接矩阵和标签。
- 对特征进行标准化处理。
- 划分训练集、验证集和测试集。
模型训练：
- 构建 GNN 模型。
- 使用训练集进行模型训练，并在验证集上调参。
模型评估：
- 在测试集上评估模型性能。
- 使用准确率（Accuracy）、精确率（Precision）、召回率（Recall）等指标进行评估。

实验和性能

在使用 Texas 数据集进行实验时，研究人员通常会比较不同 GNN 模型在节点分类任务上的性能。常见的评估指标包括准确率（Accuracy）、宏观 F1 值（Macro F1-score）等。通过这些指标，可以评估模型在处理小规模图数据集上的表现。

参考文献

结论

“万一呢？”

“啥万一呢？”

“碰到个傻子！”

关注

13
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。