在许多应用中,同名消歧 (Name Disambiguation - aiming at disambiguating WhoIsWho) 一直被视为一个具有挑战性的问题,如科学文献管理、人物搜索、社交网络分析等,同时,随着科学文献的大量增长,使得该问题的解决变得愈加困难与紧迫。尽管同名消歧已经在学术界和工业界被大量研究,但由于数据的杂乱以及同名情景十分复杂,导致该问题仍未能很好解决。
问题描述
收录各种论文的线上学术搜索系统(例Google Scholar, Dblp和AMiner等)已经成为目前全球学术界重要且最受欢迎的学术交流以及论文搜索平台。但由于学术系统内部的数据十分巨大和论文分配算法的局限性,仍存在着大量论文分配错误的问题。所以需要根据论文的详细信息以及作者与论文之间的联系,去区分属于不同作者的同名论文,以获得良好的论文消歧结果。
解决方法
解决这一问题需要用到聚类算法。提取论文特征,定义聚类相似度度量,从而将一堆论文聚成的几类论文,使得聚类内部论文尽可能相似,而类间论文有较大不同,最终可以将每一类论文看成属于同一个人的论文。[3] 是一篇经典的使用聚类方法的论文,它使用了图聚类的思想,利用论文之间的结构以及属性关系去构建统一的概率图,随后通过算法估计了聚类人数K,最后使用图聚类算法去解决问题。有些工作考虑了传统特征的局限性,所以利用了低维语义空间的向量表示方法,通过将论文映射成低维空间的向量表示,从而基于向量使用聚类方法 [2]。
可以把问题看成是对论文集的聚类任务。