ACM(Association for Computing Machinery)数据集是计算机科学领域常用于研究学术论文、作者关系、引文网络、推荐系统、图神经网络(GNN)等任务的数据集之一。该数据集通常包含学术论文、作者、研究领域以及它们之间的关系,并在许多机器学习、数据挖掘和社交网络分析任务中广泛使用。
1. ACM数据集的版本和来源
ACM数据集的版本较多,不同版本的数据来源和内容可能有所不同,常见的版本包括:
- ACM Citation Network Dataset:由Microsoft Academic Graph(MAG)或DBLP提取的ACM引用网络数据,包含论文及其引用关系。
- ACM Author-Paper Dataset:用于学术社交网络分析,包含作者、论文及其关系信息。
- ACM数据集(ACM-DBLP):用于异质图神经网络(Heterogeneous Graph Neural Networks, HGNN)研究,包括论文、作者和研究领域。
2. 数据结构
不同的ACM数据集包含不同的信息,以下是常见的数据组织形式:
(1) 节点类型
ACM数据集通常包含以下几类节点:
- Paper(论文):包括论文ID、标题、摘要、发表年份、会议等信息。
- Author(作者):包括作者ID、姓名、单位等信息。
- Conference/Venue(会议或期刊):论文发表的会议或期刊信息。
- Field(研究领域):论文所属的计算机科学研究方向。
(2) 边类型(关系)
- (Author, writes, Paper):作者撰写论文的关系。
- (Paper, cites, Paper):论文引用其他论文的关系。
- (Paper, published_in, Conference):论文发表在会议上的关系。
- (Paper, belongs_to, Field):论文所属的研究领域。
(3) 典型数据格式
ACM数据集通常以CSV、JSON、Graph(图数据格式,如Neo4j、DGL、PyG)存储。常见的数据示例如下:
论文表 (Papers.csv)
PaperID | Title | Y |
---|