Strong Baselines for Author Name Disambiguation with and without Neural Network-PAKDD阅读笔记

啧啧啧@

已于 2023-04-14 14:38:39 修改

阅读量270

点赞数

分类专栏：作者名称消歧论文阅读文章标签：聚类机器学习算法

于 2022-12-07 16:50:54 首次发布

本文链接：https://blog.csdn.net/qq_34623480/article/details/127537057

版权

Strong Baselines for Author Name Disambiguation with and without Neural Network-PAKDD

摘要

作者姓名消歧（AND）是科学计量学中最重要的问题之一，随着高校数字图书馆的快速发展，这一问题已成为一个巨大的挑战。

现有方法：

此任务的现有方法基本上依赖于类似于复杂集群的架构，它们通常假定集群的数量是预先已知的，或者通过应用另一个模型来预测集群的数量，这涉及到越来越复杂和耗时的架构。

作者的方法：

在本文中，我们将简单的神经网络与两组启发式规则相结合，在没有任何关于聚类大小的先验知识或估计的情况下，探索作者姓名消歧问题的强基线，从而将模型从不必要的复杂性中解放出来。

实验结果：

在一个流行的基准数据集AMiner上，我们的解决方案在性能和效率方面都明显优于几种最先进的方法，而且当只使用一组规则时，它仍然可以与许多复杂模型实现相当的性能。实验结果还表明，从复杂的深度学习技术中获得的收益在名称消歧问题上相当有限。

1.介绍

作者姓名消歧（and）问题在历史上和最近都引起了极大的兴趣，该问题可以定义为使用出版物记录的元数据（标题、地点、关键字、作者姓名和隶属关系等）对唯一作者进行聚类的问题[11,19,23]。随着科学文献的快速增长，消歧问题已成为迫在眉睫的问题，因为许多下游应用程序都受到其偏好的影响，例如信息检索和书目数据分析[5,13]。但不幸的是，AND并不是一个基本问题，因为不同的作者可能会使用同一个名字，这对于亚洲人来说非常常见，尤其是中国研究人员[9]，因为在将不同的中文名字映射到英语时会是相同的（例如，王伟和汪卫翻译成英文都是 Wei Wang）。
消除谁是谁的歧义的问题至少可以追溯到几十年前，通常被视为一个聚类问题，并由各种聚类模型解决，这些模型不可避免地要回答两个问题，即如何量化相似性和如何确定聚类大小[8]。现有的许多文献主要集中于回答第一个问题，如基于特征的方法[12,13]和基于图的方法[3,16,20]。事实上，其中相当一部分涉及到越来越复杂和耗时的体系结构，与之前的最先进技术相比，这些体系结构产生的收益越来越小。当涉及到第二个问题时，大多数以前的方法都假设集群的数量是预先已知的，或者通过应用另一个模型来预测集群的数量[25]。然而，毫无疑问，前者在实际情况下是不现实的，后者可能导致错误传播。
在这种推动下，我们认为作者姓名消歧不是一个典型的聚类任务。 从这个问题的根源来看，我们应该更加注意精确度，然后是召回，因为一旦两个聚类被错误地合并，重新分割它们几乎是不可能的过程。有鉴于此，许多现有的聚类模型都不太适合作者姓名消歧问题。同时，具有成本效益的阻塞技术[1]和基于规则的轻量级方法[2，22]值得研究，因为它们已被证明在这个问题上能够达到令人信服的精度。（ cost-effective blocking technique and lightweight rule-based methods ）
现有的研究旨在通过专注于洞察力和知识来提高经验的严谨性，而不是简单地“获胜”[17]，根据这一研究，我们剥离了不必要的组成部分，直到我们得到了最简单的模型，该模型在没有任何关于聚类大小的先验知识的情况下运行良好，该模型仅由简单的神经网络和一些启发式规则组成。此外，采用层次聚集聚类（HAC）算法作为出版物聚类的指导思想。在基准数据集AMiner[25]上，我们发现我们提出的解决方案比几种最先进的方法实现了显著更好的性能。在另一个公共数据集上的实验表明，这种规则符合自然规律，适用于整个作者姓名消歧任务，而不仅仅是AMiner数据集。实验结果还表明，虽然复杂模型确实有助于解决这个问题，但其中一些模型表现出不必要的复杂性，规则在这项任务中起着不可忽视的作用。

参考文献：
1… Backes, T.: The impact of name-matching and blocking on author disambiguation.In: Proceedings of the 27th ACM International Conference on Information and Knowledge Management (CIKM). pp. 803–812 (2018)
2… Caron, E., van Eck, N.J.: Large scale author name disambiguation using rule-based scoring and clustering. In: Proceedings of the International Conference on Science and Technology Indicators (STI). pp. 79–86 (2014)
17…Sculley, D., Snoek, J., Wiltschko, A., Rahimi, A.: Winner’s curse? on pace, progress, and empirical rigor. In: Workshop on 6th The International Conference on Learning Representations (ICLR) (2018)
22… Veloso, A., Ferreira, A.A., Gon¸ calves, M.A., Laender, A.H., Meira Jr, W.: Costeffective on demand associative author name disambiguation. Information Processing and Management: an International Journal 48(4), 680–697 (2012)

2.问题定义

给定一个作者姓名 $\alpha$ 和一组名为 $\alpha$ 的出版记录 $\mathcal{P}=\left\{p_{1}, p_{2}, \ldots, p_{l}\right\}$ ，作者姓名消歧的问题是将出版记录 $\mathcal{P}$ 划分为不同的簇 $\left\{C_{1}, C_{2}, \ldots, C_{K}\right\}$ ，这样：
—— $C_{k}$ 中的所有记录都属于同一作者 $\alpha_{k}$ 。

—— $\alpha_{k}$ 在 $\mathcal{P}$ 中的所有记录均在 $C_{k}$ 中。

其中 $\left\{\alpha_{1}, \ldots, \alpha_{K}\right\}$ 是 $K$ 个姓名都叫 $\alpha$ 的不同的人。

3.方法论

在本节中，我们将详细讨论我们的解决方案的设计和实现，其设计理念基于这样的观察，即研究人员的兴趣通常不会太频繁地发生变化，特别是，他/她将在同一个机构中呆很长时间[3]。为此，我们可以推断出，研究人员通常有相对稳定的合著者集，并且在一定时期内，属于研究人员的出版物的主题应该在语义空间中接近。这也符合现实世界中人类社会活动的规律，即一个人的朋友和兴趣通常是相对固定的[6]。

考虑到这一点，我们首先将出版记录 $\mathcal{P}=\left\{p_{1}, p_{2}, \ldots, p_{l}\right\}$ 分散到 $l$ 个集合中，并且每个原始集合中只有一个唯一的出版 $p$ 。接下来，提出了一种预合并策略（pre-merging strategy，PMS），根据合著者做出预合并决策。此外，简单神经网络（simple neural networks，SNN）被进一步用于通过出版物标题衡量两个聚类之间的语义相似性，因为标题自然地传达了出版物的主要观点。最后，我们引入了后阻塞策略（post-blocking strategy ，PBS）来确定最终聚类。