微软研究院和清华大学联合发布 “开放学术图谱(OAG)2.0版本”

640?wx_fmt=png

来源:微软研究院AI头条

本文约3000字建议阅读5分钟

本文为你介绍了最新发布的开放学术图谱2.0版本。


[导 读]开放学术组织(Open Academic Society)是由微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学等20个全球机构联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。其中,连接了来自微软和清华大学两个亿级学术图谱的开放学术图谱(Open Academic Graph,OAG)是该组织的一个重要项目。近日,微软研究院和清华大学联合发布了OAG 2.0版本,新版本增加了作者和出版地点相关的数据,并实现了两个数据集中实体的自动匹配链接。


开放学术图谱(Open Academic Graph,OAG)是一个大型的学术知识图谱,连接了两个亿级学术图谱:微软学术图谱(Microsoft Academic Graph,MAG)和清华大学的AMiner学术图谱,致力于提供完全开放、免费的公开学术图谱。具体来说,OAG包含了来自MAG的超过1.66亿篇学术论文和来自AMiner的近1.55亿篇论文的元数据信息。经过集成这些数据信息,OAG生成了两个学术图谱之间近6500万对链接(匹配)关系。


2017年8月,微软研究院和清华大学联合发布了OAG 1.0版本。在过去一年多的时间里,OAG 1.0版本吸引了约4万次下载。


640?wx_fmt=png

OAG 1.0概览


OAG 2.0


在OAG 1.0版本的基础上,近日,微软研究院和清华大学双方联合发布了OAG 2.0版本。


OAG 2.0包含了约7亿实体数据和20亿实体之间的链接关系,其中包括AMiner的2.8亿实体数据(作者、论文、会议)和微软学术图谱MAG的4亿多实体。新版本不仅增加了如作者、出版地点、论文等更多类型的实体数据以及相应的匹配关系,同时,还实现了两个数据集中实体的自动匹配链接。


OAG 2.0定义的问题如下图所示。OAG目前有约7亿实体数量,不同实体相互联系构成了一个大规模异构网络。下图的中间部分表示了作者名字的歧义性。而图的下面则展示了不同类型实体的异构性,因此匹配不同类型的实体需要考虑其不同的特点。


640?wx_fmt=jpeg

大规模实体匹配的示例


截止2019年1月,OAG 2.0的统计数据如下面三个表格所示。因为微软学术图谱MAG和AMiner两个学术图谱都在不断演变,所以OAG 2.0采用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。


640?wx_fmt=jpeg

OAG出版地点数据统计


640?wx_fmt=jpeg

OAG论文数据统计


640?wx_fmt=jpeg

OAG作者数据统计


注:对于作者匹配,本次匹配只考虑了论文数不少于5的作者。将论文数量较少的作者排除后,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。


构建亿级开放学术图谱


构建亿级开放学术图谱是一项极具挑战的研究工作。由于学术数据在不同图谱中呈现分布异构的特点,同名异义和异名同义问题严重,因此,实现数据的精准匹配是一个重要挑战。


研究过程中,主要的难点体现在以下三个方面:


  • 实体异构。OAG中不同类型的实体具有异构性,它们都有各自不同的特征。例如,出版地点的主要属性是名称,而论文有不同类型的属性,如题目,作者列表,年份等。此外,不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc;发表地点有全称或缩写等多种形式。

  • 实体歧义。同一名称可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说,相同的题目也可能代表不同的论文,如在KDD 2016中收集了两篇题为“robust influence maximization”的不同论文。

  • 大规模匹配。要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以已经公布的论文数据为例,AMiner和MAG各自有约1.7亿和2亿篇论文,因此需要设计一个高效的匹配框架。


为此,微软和清华大学的学者们尝试结合哈希算法、不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(出版地点,论文和作者)。


随后,学者们评估了少部分匹配关系(大约1,000个出版地点/论文/作者匹配对),其准确率表现优异。


640?wx_fmt=jpeg

实体匹配准确率


OAG:学术数据的开放共享


开放学术图谱OAG是开放学术组织(Open Academic Society)的一个重要项目。开放学术组织是微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。


OAG可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等等。


以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标,微软和清华大学的学者们希望OAG可以实现:


  • 集成丰富的学术知识数据。目前OAG的核心数据来自微软学术图谱MAG和AMiner学术图谱,下一步OAG将集成更多其他学术图谱数据,包括扩充不同类型实体(如作者、论文等)的语义数据。通过数据集成和数据挖掘算法,OAG将链接更多实体,及更精准和丰富的“画像”数据,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国家、性别等)、研究兴趣以及论文列表等。

  • 数据共享。通过共享不同的学术知识图谱,以及它们的链接关系,造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时,也欢迎更多学术社区的贡献来进一步增强OAG。

  • 服务共享。设计更加智能的学术图谱连接系统,并提供相关的服务(如API),以方便更多人使用服务以及加入开放学术社区。


参考文献


[1] An Overview of Microsoft Academic Service (MAS) and Applications.

https://www.microsoft.com/en-us/research/publication/an-overview-of-microsoft-academic-service-mas-and-applications-2/


[2] ArnetMiner: Extraction and Mining of Academic Social Networks. 

http://keg.cs.tsinghua.edu.cn/jietang/publications/KDD08-Tang-et-al-ArnetMiner.pdf


编辑:王菁

校对:林亦霖


640?wx_fmt=jpeg

640?wx_fmt=jpeg

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值