The Microsoft Academic Knowledge Graph- A Linked Data Source with 8 Billion Triples of Scholarly Dat

本文介绍了基于微软学术知识图谱(MAG)构建的大型RDF数据集MAKG,该数据集将学术数据转化为RDF格式,并链接到其他开放数据源,如DBpedia、Wikidata等。MAKG解决了现有RDF数据集的局限性,提供丰富的学术元数据,包括论文、作者、引用等,并通过SPARQL端点支持查询。
摘要由CSDN通过智能技术生成

本文由德国卡尔斯鲁厄技术学院(KIT)AIFB研究所的学者迈克尔·费伯发表

内容简介:
介绍Microsoft学术知识图谱,数据集在开放数据共享归属许可下授权。通过将数据作为RDF转储文件提供,并在链接的开放数据云中提供具有可解析的URI的链接以及与其他链接的链接数据源,将大量学术数据带入Web。本文提供了一个大型RDF数据集,该数据集基于Microsoft学术知识图谱,Microsoft不以图谱的形式提供数据,每数周会提供大型数据库转储。存储和处理这些数据集具有许多阻碍,通过丰富MAG数据和提供数据作为RDF知识图谱和及其预训练的实体嵌入,使潜在MAG数据用户不会有这些阻碍。

现有RDF数据集的局限性:1、很小;2、仅覆盖少数几个实体类型;3、仅覆盖特定科学领域,4、覆盖数据主要来自单个发布者;5、过时。

主要内容:

  • 以带有描述的文本文件形式将MAG所有数据转换到RDF,同时重复使用常用词汇并序列化N-Triples格式。

  • 将资源链接到Web上的其他数据源,例如DBpedia,Wikidata,OpenCitations 和全球研究标识符数据库(GRID)。

  • –提供了MAKG,托管于http://ma-graph.org[1]。

创建过程
原始MAG数据转储主要是为数据处理而设计,基于转储文件创建RDF图谱必须对数据格式和数据建模重大更改,下面为转换过程中最关键的步骤。

  • 论文:科学论文元数据是MAG数据集的核心。原始MAG数据转储的Papers.txt包含与论文直接相关的信息。根据 FABIO本体中涵盖的文档类型为每个出版物的表示文档类型建模。此外&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值