OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道

最新推荐文章于 2020-05-24 16:32:27 发布

PaperWeekly

最新推荐文章于 2020-05-24 16:32:27 发布

阅读量1.5k

点赞数

原文链接：https://www.biendata.com/competition/aminer2019/

版权

640?

640?wx_fmt=png

当大家想要搜索论文的时候，就会去Google Scholar，PubMed，AMiner这样的学术搜索系统上搜索论文。不过，由于学术系统内部的数据十分巨大（AMiner大约有130,000,000作者档案，以及超过200,000,000篇论文），导致作者同名情景十分复杂，要快速且准确的解决同名消歧问题（Name Disambiguation, aiming at disambiguating WhoIsWho）还是有很大的障碍。我们有时候会看到以下情况：

640?wx_fmt=png

比赛链接：

https://www.biendata.com/competition/aminer2019/

由于论文分配算法的局限性，现有的学术系统内部存在着大量的同名论文分配错误；此外，每天都会有大量新论文进入系统。故如何维护作者档案的一致性以及准确快速的将新论文分配到系统中已有的作者档案，是现有的线上学术系统亟待解决的难题。

为了解决这一问题，北京智源人工智能研究院和AMiner联合发布了一个大规模姓名排歧数据集OAG – WhoIsWho，据调研，该数据集是目前为止发布的人工标注数据规模最大的姓名消歧数据集（之后我们还计划以增量的方式继续发布更多的人工标注的姓名排歧数据集并辅以OAG-WhoIsWho系列竞赛，尽请期待！）。

同时我们也全面分析了姓名排歧任务的不同应用情景，同步开放了两个评测任务。

640?wx_fmt=png

任务一：论文的冷启动消歧（Name Disambiguation from Scratch）

任务描述： 给定一堆拥有同名作者的论文，要求返回一组论文聚类，使得一个聚类内部的论文都是一个人的，不同聚类间的论文不属于一个人。最终目的是识别出哪些同名作者的论文属于同一个人。

参考方法： 解决这一问题的常用思路就是通过聚类算法，提取论文特征，定义聚类相似度度量，从而将一堆论文聚成的几类论文，使得聚类内部论文尽可能相似，而类间论文有较大不同，最终可以将每一类论文看成属于同一个人的论文。[1] 是一篇经典的使用聚类方法的论文，它使用了图聚类的思想，利用论文之间的结构以及属性关系去构建统一的概率图，随后通过算法估计了聚类人数K，最后使用图聚类算法去解决问题。有些工作考虑了传统特征的局限性，所以利用了低维语义空间的向量表示方法，通过将论文映射成低维空间的向量表示，从而基于向量使用聚类方法 [2]。

参考文献：

[1]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987.

[2]. Yutao Zhang, Fanjin Zhang, Peiran Yao, and Jie Tang. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).

任务二：论文的增量消歧（Continuous Name Disambiguation）

任务描述： 线上系统每天会新增大量的论文，如何准确快速的将论文分配到系统中已有作者档案中，这是线上学术系统最亟待解决的问题。所以问题抽象定义为：给定一批新增论文以及系统已有的作者论文集，最终目的是把新增论文分配到正确的作者档案中。

参考方法： 增量消歧任务与冷启动消歧的任务不同，它是基于有一定作者档案，然后对新增论文进行分配。所以，容易直接想到的方法就是将新增的论文与已有的作者档案进行比较，提取合作者，单位机构或者会议期刊之间相似度的传统特征，随后利用svm之类的传统分类器进行分类。还可以利用基于低维空间的向量表示方法，通过将作者与论文表示成低维向量，使用监督学习方法进行特征提取及模型训练。

参考文献：

[1]. Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'2008). pp.990-998.

[3]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987.

[4]. Xuezhi Wang, Jie Tang, Hong Cheng, and Philip S. Yu. ADANA: Active Name Disambiguation. In Proceedings of 2011 IEEE International Conference on Data Mining (ICDM'11), pages 794-803.

[5]. https://biendata.com/competition/scholar2018/data/

[6]. The Microsoft Academic Search Dataset and KDD Cup 2013

[7]. Wang, F. , Li, J. , Tang, J. , Zhang, J. , & Wang, K. . (2008). Name Disambiguation Using Atomic Clusters. Web-Age Information Management, 2008. WAIM '08. The Ninth International Conference on.

我们在招聘（详情请扫描下方二维码）

640?wx_fmt=png