两个实体相同属性快速映射_知识图谱论文阅读笔记（三）实体链接翻译韩家炜老师的实体链接综述...-CSDN博客

多读书, 多看报,多吃零食, 多睡觉.

论文: Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions

摘要

将Web数据与知识库连接起来的大量潜在应用程序导致了实体链接研究的增加。实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务。潜在的应用包括信息提取、信息检索和知识库填充。但是，由于名称的变化和实体的模糊性，此任务具有挑战性。在本次调查中，我们对实体链接的主要方法进行了全面的概述和分析，并讨论了各种应用、实体链接系统的评估以及未来的发展方向。

概览

动机

近年来，网络数据量呈指数级增长，成为世界上最大的数据存储库之一。网络上的大量数据是以自然语言的形式存在的。然而，自然语言是高度模棱两可的，特别是在命名实体的频繁出现方面。命名实体可以有多个名称，一个名称可以表示多个不同的命名实体。

另一方面，维基百科等知识共享社区的出现和信息提取技术的发展促进了大规模机器可读知识库的自动化建设。知识库包含关于世界实体、语义类和相互关系的丰富信息。这种著名的例子包括dbpedia[1]、yago[2]、freebase[3]、knowitall[4]、readtheweb[5]和probase[6]

利用知识库桥接Web数据有利于在Web上注释大量原始数据和噪声数据，并有助于实现语义Web的愿景[7]。实现此目标的关键步骤是将Web文本中出现的命名实体mention与知识库中的对应实体相链接，这称为实体链接。

实体链接可以促进许多不同的任务，例如知识库扩充，问题解答和信息检索。随着世界的发展，新的facts在网络上产生并以数字方式表达。因此，利用新facts丰富现有知识库变得越来越重要。然而，将从信息提取系统导出的新提取的知识插入到现有知识库中不可避免地需要系统将与提取的知识相关联的实体mention 映射到知识库中的对应实体。例如，关系提取是发现文本[8,9,10,11]中提到的实体之间的有用关系的过程，并且提取的关系需要在知识库被填充之前将与关系相关联的实体映射到知识库的过程。此外，大量的问答系统依赖于知识库来给出用户问题的答案。为了回答“著名篮球运动员迈克尔乔丹的诞生日期是什么？”这个问题，该系统应该首先利用实体连接技术将被查询的“迈克尔乔丹”映射到NBA球员，而不是像伯克利教授那样;然后它直接从知识库中检索名为“迈克尔乔丹”的NBA球员的出生日期。此外，实体链接有助于强大的连接和联合操作，可以跨不同页面，文档和站点集成有关实体的信息。

由于名称变化和实体模糊，实体链接任务具有挑战性。命名实体可以具有多个表面形式，例如其全名，部分名称，别名，缩写和替代拼写。例如，“Cornell University”的命名实体的缩写为“Cornell”，“New York City”的命名实体的昵称为“Big Apple”。实体链接系统必须为各种表面形式的实体mention 识别正确的映射实体。另一方面，实体mention 可能表示不同的命名实体。例如，提到“SUN”的实体可以指太阳系中心的星球，一家跨国电脑公司，ABC电视连续剧“迷失”中的一个名叫“孙华权”的虚构角色或许多其他实体。可以称为“SUN”。实体链接系统必须消除文本上下文中提到的实体mention的歧义，并识别每个实体mention的映射实体。

任务描述

给定包含一组实体E的知识库和其中预先识别出一组命名实体mention M的文本集合，实体链接的目标是将每个文本实体mention m∈M映射到其对应的实体e∈E在知识库中。这里，mention m的命名实体是文本中的标记序列，其可能是指某个命名实体并且是预先标识的。文本中mention 的某些实体可能在给定的知识库中没有其对应的实体记录。我们将这种mention 定义为不可链接的 mention，并将NIL作为表示“不可链接”的特殊标签。因此，如果知识库中不存在实体m的匹配实体e（即，e nin E），则实体链接系统应将m标记为NIL。对于不可链接的mention，有一些研究从知识库[12,13,14,15]中确定了它们的细粒度类型，这超出了实体链接系统的范围。实体链接在NLP社区中也称为命名实体消歧（NED）。在本文中，我们只关注英语语言的实体链接，而不是跨语言实体链接[16]。

通常，实体链接的任务之前是命名实体识别阶段，在此期间识别文本中命名实体的边界。虽然命名实体识别不是本次调查的重点，但对于命名实体识别任务中使用的方法的技术细节，您可以参考调查论文[17]和一些具体方法[18,19,20]。此外，还有许多公开可用的命名实体识别工具，例如Stanford NER1，OpenNLP2和LingPipe3。芬克尔等人。 [18]介绍了斯坦福NER中使用的方法。他们利用Gibbs采样[21]来增强现有的基于条件随机场的系统，该系统具有长距离依赖模型，强制执行标签一致性和提取模板一致性约束。最近，一些研究人员[22,23,24]提出联合执行命名实体识别和实体连接，使这两个任务相互加强，这对于命名实体识别工具表现不佳的文本来说是一个很有前景的方向（例如，推文）。

现在，我们为图1所示的实体链接任务提供一个示例。对于图左侧的文本，实体链接系统应利用可用信息，例如命名实体mention 的上下文和来自知识库的实体信息, 将指定实体提及“迈克尔乔丹”与伯克利教授迈克尔乔丹联系起来，而不是其他名称也是“迈克尔乔丹”的实体，如NBA球员迈克尔乔丹和英格兰足球守门员迈克尔乔丹。

在没有知识库的情况下执行时，实体链接会减轻传统的实体共指消解问题。在实体共指消解[25,26,27,28,29,30]问题中，实体在一个文档中或多个文档中mention 被聚集到几个不同的cluster中，每个cluster代表一个特定的实体，基于实体mention本身，上下文和文档级统计信息。与实体共指解析相比，实体链接需要将文本中检测到的每个实体mention 与知识库中的映射实体相关联，并且来自知识库的实体信息可以在链接决策中起到至关重要的作用。

此外，实体链接也类似于词义消歧（WSD）[31]的问题。 WSD的任务是从感知库存（例如WordNet [32]）而不是知识库中识别上下文中的单词（而不是命名实体）。 WSD认为感知库存是完整的，但知识库不是。例如，许多命名实体在维基百科中没有相应的条目。此外，实体链接中的命名实体 mention 与WSD中的mention不同[33]。

另一个相关问题是数据库社区中的记录链接[34,35,36,37,38,39,40,41]（也称为重复检测，实体匹配和参考协调）。记录链接是匹配来自几个引用相同实体的数据库或源的记录的任务，例如匹配引用同一纸张的两个发布记录，这是数据集成和数据清理的关键任务。描述实体的每条记录都包含一组属性值。例如，描述人实体的记录可以具有属性，例如人名，生日和地址。大多数记录链接方法基于重复记录应具有相同或相似属性值的假设。它们通常使用一组相似性度量来比较记录的不同属性值，并且可以使用不同的聚合函数来组合所得的相似性得分。聚合相似度得分超过某个阈值的记录对被视为描述同一实体。具体来说，董等人。 [38]提出了一种新的记录链接算法，该算法基于一般框架，通过利用上下文信息，在相关实体上计算的相似性和丰富的参考，将信息从一个链接决策传播到另一个。 Isele和Bizer [39]提出了GenLink，一种监督学习算法，它使用遗传编程从一组现有记录链接中学习连接规则。他们的算法能够生成链接规则，其选择用于比较的判别属性，应用数据变换链以归一化属性值，选择适当的相似性度量和阈值，并使用非线性聚合函数组合多个比较的结果。

在实体链接问题中，需要链接的实体mention出现在非结构化文本中，并且没有属性值。知识库中的实体具有许多指示其属性的关联关系。对于每个实体 mention，如果我们可以利用一些信息提取技术从非结构化文本中准确地提取其相应的属性值，则可以采用现有的记录链接方法来解决实体链接问题。然而，实体mention 的相应属性值可能不存在于文本中，并且这种信息提取任务是困难的。此外，可以利用记录链接中提出的字符串比较方法[34,42,43]在第2节中介绍的候选实体生成模块中生成候选实体。总之，实体链接不同于实体共指消解，字义消歧，记录链接。

一般来说，典型的实体链接系统包括以下三个模块：

候选实体生成
- 在该模块中，对于每个实体mention m∈M，实体链接系统旨在过滤掉知识库中的不相关实体并检索候选实体集合Em，其包含实体mention m可能引用的可能实体。为了实现这一目标，一些最先进的实体链接系统已经使用了各种技术，例如基于名称字典的技术，来自本地文档的表面形式扩展，以及基于搜索引擎的方法。第2节给出了该模块中使用的技术的详细调查。
候选实体排序
- 在大多数情况下，候选实体集Em的大小大于1。研究人员利用不同类型的证据对Em中的候选实体进行排名，并尝试找到实体e∈Em，这是mention m的最可能的链接。在第3节中，我们将回顾此排名过程中使用的主要技术，包括监督排序方法和无监督排序方法。
不可链接实体预测
- 为了解决预测不可链接mention的问题，一些工作利用该模块来验证在候选实体排名模块中识别的排名最高的实体是否是mention m的目标实体。否则，他们返回NIL mention m。在第4节中，我们将概述预测不可链接的mention的主要方法。

应用

正如1.1节简要介绍的那样，实体链接对许多不同的任务至关重要。这里我们介绍几种典型应用。

信息抽取

由信息提取系统提取的命名实体和关系通常是模糊的。将它们与知识库联系起来是一种消除歧义和细粒度输入的好方法，这对于它们的进一步利用至关重要。林等人 [44]提出了一种有效的实体链接技术，将来自网络的1500万文本提取与维基百科的实体 mention 联系起来。他们表示，为这些提取的关系链接的实体将提供好处，例如语义键入文本关系，与链接数据资源的集成以及推理规则学习。 PATTY [45]是这种情况的另一个很好的例子。它的目标是用语义类型构建关系模式的分类。 PATTY首先从Web中提取实体之间的二元关系。为了利用这些提取的关系来构建关系模式分类法，它首先使用实体链接技术将提取的关系中的实体与YAGO2知识库[46]联系起来以消除它们的歧义。

信息检索

近年来，将传统的基于关键词的搜索推进到基于语义实体的搜索的趋势引起了很多关注。基于语义实体的搜索[47,48,49,50]肯定会受益于实体链接，因为它本身需要出现在Web文本中的歧义实体mention ，以更精确地处理实体和Web文档的语义。此外，查询歧义是破坏搜索结果质量的问题之一。命名实体通常出现在搜索查询中，毫无疑问它们是含糊不清的[51]。例如，在搜索查询中提到“纽约”的实体可能意味着许多不同的实体，例如纽约州，纽约市，爱德华卢瑟福德的历史小说，其名称是“纽约”，以及许多名为“纽约”的歌曲。使用查询上下文和用户的搜索历史将搜索查询中的这些模糊实体mention 与知识库链接可以潜在地改善搜索结果的质量以及用户点击体验。

内容分析

从主题，思想，分类等方面对文本的一般内容进行分析，一定可以从实体链接的应用中受益。基于内容的新闻推荐系统[52,53]需要对新闻文章进行专题分析，以便为用户推荐有趣的新闻。将新闻文章中的实体与知识库链接可以更好地进行主题内容分析。此外，Twitter4最近已成为越来越重要的信息来源。发现特定Twitter用户感兴趣的主题允许基于他们感兴趣的主题推荐和搜索Twitter用户[54]。研究人员[55]通过首先检测和链接他们的推文中提到的命名实体与知识库，发现了Twitter用户感兴趣的主题。然后，他们利用从知识库获得的链接实体的类别来表征用户感兴趣的主题。另一个例子是，跨文档收集关于某些产品，事件，名人或其他一些命名实体的意见或信息的需求也需要将命名实体mention 与知识库相关联的过程[56]。

问答

如上所述，大多数问答系统利用其支持的知识库来回答用户的问题。为了回答诸如“哪个大学是迈克尔乔丹教授所属的大学？”这样的问题，该系统必须首先消除mention “Michael Jordan”的实体的歧义。他们可以利用实体链接技术将查询到的“迈克尔乔丹”映射到伯克利教授，然后直接从知识库中检索他的附属大学以回答用户的问题。 Gattani等。 [56]通过将查询中的实体与知识库链接，解释了http://kosmix.com上的用户查询。此外，像Watson [57]这样的一些问答系统利用实体链接技术来预测问题类型和候选答案，并获得期望的结果。

知识库扩充

随着世界的发展，新的事实在网络上产生并以数字方式表达。利用新提取的事实自动填充和丰富现有知识库已成为语义Web和知识管理技术的关键问题。实体链接本质上被认为是知识库扩充的重要子任务。给定需要填充到知识库中的关系或事实，如果与关系相关联的实体mention在知识库中具有其对应的实体记录，则应该执行实体链接任务并且该实体mention应该与其对应知识库中的实体简历链接。因此，知识库扩充任务可能会从实体链接问题中获益。

现有知识库

Wikipedia是一个免费的在线多语言百科全书，通过世界各地成千上万志愿者的分散集体努力创建。目前，维基百科已经成为世界上最大和最受欢迎的互联网百科全书，也是一个非常有活力和快速增长的资源。维基百科中的基本条目是一篇文章，它定义和描述实体或主题，维基百科中的每篇文章都由标识符唯一引用。目前，英语维基百科包含超过440万篇文章。维基百科对命名实体的覆盖率很高，并且包含有关着名命名实体的大量知识。此外，维基百科的结构为实体链接提供了一组有用的功能，例如实体页面，文章类别，重定向页面，消歧页面和维基百科文章中的超链接。
YAGO [2]是一个结合维基百科和WordNet [32]的开放领域知识库，具有高覆盖率和高质量。一方面，YAGO拥有与维基百科相同数量级的大量实体。另一方面，它采用了WordNet概念的clean分类。目前，最新版本的YAGO包含超过1000万个实体（例如人员，组织，位置等），并且有关于这些实体的1.2亿个事实，包括Is-A层次结构（例如类型关系和子类关系）以及实体之间的非分类关系（例如生命关系和毕业关系）。另外，YAGO中的均值关系表示字符串和实体之间的参考关系（例如，“爱因斯坦”表示阿尔伯特爱因斯坦）。霍法特等人。 [58]利用这意味着YAGO中的关系生成候选实体。
DBpedia [1]是一个多语言知识库，通过从维基百科中提取结构化信息构建，如信息框模板，分类信息，地理坐标和外部网页链接。 DBpedia知识库的英文版目前描述了400万个实体，其中322万个被归类为一致的本体。此外，随着维基百科的变化，它会自动扩展。
Freebase [3]是一个大型在线知识库，主要由社区成员共同创建。 Freebase提供了一个界面，允许非程序员编辑其中的结构化数据。 Freebase包含从许多来源收集的数据，包括维基百科。目前，它包含超过4300万个实体和24亿个关于它们的事实。

提纲

在本次调查中，我们仔细审查和分析实体链接系统的三个模块中使用的主要技术以及功能和评估等其他关键方面。据我们所知，这是第一篇系统地调查实体链接系统的论文。

本文的其余部分组织如下。我们分别在第2,3和4节中呈现和分析实体链接系统的三个模块中使用的算法和特征（即，候选实体生成，候选实体排名和不可链接mention 预测）。然后，我们在第5节介绍实体链接系统的评估。最后，我们总结本文并讨论第6节中的未来方向。

候选实体生成

如在第1.2节中简要介绍的，在候选实体生成模块中，对于mention m∈M的每个实体，实体链接系统试图包括实体mention m可以在候选实体集合Em中引用的可能实体。候选实体生成的方法主要基于实体mention的表面形式与知识库中存在的实体的名称之间的字符串比较。该模块与候选实体排名模块同样重要，并且根据Hachey等人进行的实验，对于成功的实体链接系统至关重要。[33]。在本节的其余部分，我们将回顾已经应用于为实体mention m生成候选实体集Em的主要方法。

具体来说，在2.1节中，我们描述了基于名称字典的技术。在2.2节中，我们提出了表面形式扩展方法，用于将实体mention 的表面形式从提供实体的本地文档扩展为更丰富的形式。在2.3节中，我们列出了基于搜索引擎的方法。

基于名称字典的方法

基于名称字典的技术是候选实体生成的主要方法，并被许多实体链接系统所利用[22,56,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79]。维基百科的结构提供了一组用于生成候选实体的有用功能，例如实体页面，重定向页面，消歧页面，来自第一段的粗体短语，以及维基百科文章中的超链接。这些实体链接系统利用这些特征的不同组合来在各种名称及其可能的映射实体之间构建离线名称字典D，并利用该构造的名称字典D来生成候选实体。此名称字典D包含有关命名实体的各种名称的大量信息，如名称变体，缩写，可混淆的名称，拼写变体，昵称等。

具体地，名称字典D是⟨键，值⟩映射，其中键列是名称列表。假设k是键列中的名称，并且其值列中的映射值 k：value是一组命名实体，可以称为名称k。字典D是通过利用维基百科的功能构建的，如下所示：

实体页面。维基百科中的每个实体页面都描述了一个实体，并包含关注该实体的信息。通常，每个页面的标题是本页描述的实体的最常见名称，例如，总部位于雷德蒙德的大型软件公司的页面标题“Microsoft”。因此，实体页面的标题被添加到D中的键列作为名称k，并且该页面中描述的实体被添加为k.value。
重定向页面。每个备用名称都有一个重定向页面，可用于引用维基百科中的现有实体。例如，标题为“Microsoft Corporation”的文章是Microsoft的全名，其中包含指向Microsoft实体文章的指针。重定向页面通常表示同义词术语，缩写或指向实体的其他变体。因此，重定向页面的标题被添加到D中的键列作为名称k，并且指向的实体被添加为k.value。
消歧页面。当维基百科中的多个实体可以被赋予相同的名称时，创建消歧页面以将它们分开并包含对这些实体的引用列表。例如，名为“迈克尔乔丹”的消歧页面列出了具有相同名称“迈克尔乔丹”的13个相关实体，包括着名的NBA球员和伯克利教授。这些消歧页面在提取缩写或其他实体别名时非常有用。对于每个消除歧义的页面，此页面的标题将作为名称k添加到D中的键列，并且此页面中列出的实体将添加为k.value。
第一段中的黑体短语。一般而言，维基百科文章的第一段是整篇文章的摘要。它有时包含一些用粗体写的短语。 Varma等。 [63,64]观察到这些粗体短语总是昵称，别名或本文所述实体的全名。例如，在Hewlett-Packard实体页面的第一段中，有两个用粗体写的短语（即“Hewlett-Packard Company”和“HP”），它们分别是实体Hewlett-Packard的全名和缩写。因此，对于每个维基百科页面的第一段中的每个粗体短语，将其作为名称k添加到D中的键列，并且将该页面中描述的实体添加为k:value。
维基百科文章中的超链接。维基百科中的文章通常包含链接到本文中提到的实体页面的超链接。指向实体页面的链接的锚文本提供了非常有用的同义词源和指向实体的其他名称变体，并且可以被视为该链接实体的名称。例如，在Hewlett-Packard的实体页面中，有一个指向实体William Reddington Hewlett的超链接，其锚文本是“Bill Hewlett”，它是实体William Reddington Hewlett的别名。因此，超链接的锚文本被添加到D中的键列作为名称k，并且指向的实体被添加为k:value。

使用上述维基百科的这些功能，实体链接系统可以构建字典D.字典D的一部分如表1所示。除了利用维基百科的功能外，还有一些研究[80,81,82]利用查询点击日志和Web文档以查找实体同义词，这对名称字典构造也很有帮助。

基于以这种方式构造的字典，为实体mention m∈M生成候选实体集合Em的最简单方法是key中的名称k与实体mention m之间的精确匹配。如果某个k等于m，则将实体集合k：value添加到候选实体集合Em中。

除了精确匹配之外，一些方法[67,69,70,83,84]利用字典D中的实体名称k和实体mention m之间的部分匹配。这些方法使用的通用规则包括： 实体名称完全包含在实体mention中或包含实体mention。 实体名称与实体mention中所有单词的首字母完全匹配。 实体名称与实体mention共享几个常用词。 实体名称与实体mention 具有强烈的字符串相似性。已经使用了许多字符串相似性度量，例如字符Dice得分，skip bigram Dice得分，汉明距离等。由于字符串比较技术不是本调查的重点，因此可以在论文中找到对这些技术的一些综合调查[34]，42,43]。

对于每个实体mention

，如果key列中的某个实体名称k满足上述规则之一，则将实体集合k：value添加到候选实体集合Em中。与精确匹配相比，部分匹配导致更高的召回率，但候选实体集中的噪声更多。

在与字典匹配之前，一些方法解决了实体mention中存在的拼写错误问题，这是非常严重的并且需要特别解决。 Varma等。 [63]使用metaphone算法[85]来识别给定实体mention的拼写变化。陈等人。 [67]使用Lucene中的拼写检查器获得了建议的正确字符串。 Nemeskey等。 [86]通过SZTAKI信息检索引擎[87]的内置拼写纠正器解决了这个拼写错误的问题。张等人。 [65]建议使用维基百科搜索引擎中的一个功能（即，您的意思是）来识别给定实体mention 的拼写变体。此外，一些系统[64,68,78]尝试使用Google搜索引擎提供的查询拼写纠正服务来纠正实体mention 中存在的拼写错误。

从本地文档扩展表面形式

由于某些实体mention的是首字母缩略词或其全名的一部分，因此一类实体链接系统使用表面形式扩展技术来识别实体mention 出现的相关文档中的其他可能的扩展变体（例如全名）。然后，他们可以利用这些扩展形式来使用其他方法生成候选实体集，例如上面介绍的基于名称字典的技术。我们将表面形式扩展技术分类为基于启发式的方法和监督学习方法。

基于启发的方法

对于以首字母缩略词形式mention 的实体，一些方法[61,67,69]通过启发式模式匹配搜索实体mention的文本上下文来扩展它。他们利用的最常见模式是与扩展相邻的括号中的缩写（例如，Hewlett-Packard（HP））以及与首字母缩略词相邻的括号中的扩展（例如，UIUC（University of Illinois at Urbana-Champaign）））。此外，一些研究人员[63,66,68,86]从整个文件中确定了扩展形式，其中实体mention是通过基于N-Gram的方法定位的。他们在删除与首字母缩略词字符具有相同首字母的停用词后，检查整个文件中是否存在“N”个连续词。如果存在，他们会将这些'N'连续词视为首字母缩略词的扩展形式。此外，Varma等人。 [64]和Gottipati和Jiang [77]使用现成的命名实体识别器（NER）来识别文档中的命名实体，如果一些识别出的命名实体包含实体mention为子字符串，他们将此命名实体视为实体mention的扩展形式。例如，如果NER将“Michael I. Jordan”标识为实体mention“Jordan”的文档中的人名，则“Michael I. Jordan”被视为mention“Jordan”的实体的扩展形式。 Cucerzan [71]采用首字母缩略词检测器[88]，利用Web数据识别首字母缩略词的扩展。

监督学习的方法

前面基于启发式的表面形式扩展方法无法识别某些复杂缩写词的扩展形式，例如交换或遗漏的首字母缩写词（例如，“CCP”代表“Communist Party of China””和“DOD”代表“United States Department of Defense“）。张等人。 [72]提出了一种监督学习算法，用于找到复杂缩写词的扩展形式，与最先进的首字母缩略词扩展方法相比，可以提高15.1％的准确度（实体连接的评估指标将在5.1节中介绍）。具体来说，他们通过一些预定义的策略（包括文本标记（例如“Hewlett-Packard（HP）”和“HP（Hewlett-Packard）”）和首字母匹配（即所有单词序列）确定了文档中可能的候选扩展。以与首字母缩略词相同的第一个字母开头并且不包含标点符号或超过两个停用词的文档被提取作为候选扩展。例如，从“Communist Party of China leaders have granted the ...”这句话来看，就“CCP”这个缩写而言，他们提取了“Communist Party of China leaders have”，其中包含两个停用词及其所有子词，从第一个匹配单词作为候选扩展。然后将每对首字母缩略词和其候选扩展之一表示为特征向量，包括词性特征和首字母缩略词与扩展之间的对齐信息。将SVM（支持向量机）分类器应用于每个候选首字母缩略词 - 扩展对以输出置信度得分。对于每个首字母缩略词，选择具有最高分数的候选扩展。该分类器的训练数据包括170个首字母缩略词，以及它们从首字母缩略词所在的文档中扩展。

基于搜索引擎的扩展

一些实体链接系统[61,69,73,83]试图利用整个Web信息通过Web搜索引擎（例如Google）识别候选实体。具体来说，Han和Zhao [61]将实体mention 及其简短的上下文提交给Google API，并且仅获取维基百科内的网页以将其视为候选实体。 Dredze等人。 [83]使用实体mention 查询谷歌搜索引擎，并确定其维基百科页面出现在查询的前20个谷歌搜索结果中的候选实体。莱曼等人[69]和Monahan等人。 [73]指出，谷歌搜索引擎非常有效地识别表面形式和实体之间的一些非常困难的映射。他们使用仅限于英语维基百科网站的Google API执行查询，并过滤了其维基百科标题与查询不明显Dice或缩写词的结果。最后，他们将前三名结果作为候选实体。

此外，维基百科搜索引擎也被利用来检索候选实体，当您基于关键字匹配查询时，可以返回相关维基百科实体页面的列表。张等人。 [65]利用该特征通过使用实体mention 的字符串查询该搜索引擎来生成不常被提到的候选实体。

候选实体排序

在上一节中，我们描述了可以为每个实体mention m生成候选实体集Em的方法。我们将Em的大小表示为| Em |，并使用1≤i≤| Em |在Em中索引候选实体。在Em中具有索引i的候选实体由ei表示。在大多数情况下，候选实体集Em的大小大于1。例如，Ji等人 [89]表明，TAC-KBP2010数据集中提到的每个实体的候选实体的平均数量（TAC-KBP轨道和数据集将在5.2节中介绍）为12.9，并且这个平均数量在TAC-KBP2011数据集上是13.1。此外，[58]中使用的CoNLL数据集的平均数为73。因此，剩下的问题是如何结合不同种类的证据来对Em中的候选实体进行排名，并从Em中选择适当的实体作为实体mention m的映射实体。候选实体排名模块是实体链接系统的关键组件。我们可以将这些候选实体排名方法大致分为两类：

监督排序方法: 这些方法依赖于带注释的训练数据来“学习”如何在Em中对候选实体进行排序。这些方法包括二元分类方法，学习排序方法，概率方法和基于图的方法。
无监督排序方法。这些方法基于未标记的语料库，并且不需要任何手动注释的语料库来训练模型。这些方法包括基于矢量空间模型（VSM）的方法和基于信息检索的方法。

在该部分中，根据上述分类一一解释所有候选实体排名方法。此外，我们还可以将候选实体排名方法分为另外三类：

独立排名方法。这些方法认为需要在文档中链接的实体mention是独立的，并且不利用一个文档中的实体mention 之间的关系来帮助候选实体排名。为了对候选实体进行排名，它们主要利用实体mention的文本与与候选实体相关的文档之间的上下文相似性[44,59,66,67,68,70,83,84]。
集体排名方法。这些方法假设文档主要是指来自一个或几个相关主题的连贯实体，并且一个文档中实体mention的实体分配彼此相互依赖。因此，在这些方法中，通过利用这种“局部连贯性”[22,58,60,62,75,76,78,79,90,91,92,93]将一个文件中的实体mention集体联系起来。
协作排名方法。对于需要链接的实体mention，这些方法确定在其他文档中具有相似表面形式和类似文本上下文的其他实体mention。他们利用从其他类似实体mention获得的交叉文档扩展上下文信息和mention自身的实体的上下文信息来为实体mention [94,95,96,97]对候选实体进行排名。

在本节的其余部分，我们将回顾候选实体排名过程中使用的主要技术。首先在3.1节中，我们回顾了在候选实体排名中发现有用的各种类型的特征。然后在3.2节中，我们介绍了有监督的排名方法。具体来说，在3.2.1节中我们描述了二分类方法，在3.2.2节中我们介绍了学习排序方法。在3.2.3节中，我们描述了概率方法，第3.2.4节介绍了基于图的方法。在3.2.5节中，我们介绍了实体排名的模型组合策略，在3.2.6节中，我们说明了如何自动生成带注释的训练数据。在3.3节中，我们介绍了无监督排名方法。具体来说，在3.3.1节中我们列出了基于VSM的方法，在3.3.2节中我们介绍了基于信息检索的方法。

特征

在本小节中，我们将回顾在候选实体排名中发现有用的各种类型的特征。我们将这些特征划分为与上下文无关的特征和依赖于上下文的特征。文本独立的特征仅依赖于实体 mention 的表面形式和关于候选实体的知识，并且与实体 mention 出现的上下文无关。依赖于上下文的特征基于实体 mention 的上下文。这里，上下文不仅意味着实体mention 的文本上下文，还意味着需要在同一文档中链接的其他实体mention。

文本独立的特征

名称字符串比对

实体mention与候选实体之间的名称字符串比较是可以使用的最直接的特征。在名称比较中使用了许多字符串相似性度量，包括编辑距离[68,96]，Dice系数得分[69,73]，字符Dice，skip bigram Dice以及左右汉明距离得分[83]。常用名称比较功能包括： 实体mention 是否与候选实体名称完全匹配。 候选实体名称是以实体mention开头或者结尾。 候选实体名称是实体mention的前缀还是后缀。 实体mention是否完全包含在候选实体名称中，反之亦然。 是否实体mention的所有字母都在候选实体名称中以相同的顺序找到. 实体mention与候选实体名称之间的相同单词数。 * 递归最长公共子序列[98]与实体mention和候选实体名称中较短的比率。

此外，Dredze等人 [83]通过训练类似于[99]中描述的有限状态感知机来计算名称相似性。这些感知机通过对所有对齐进行求和并对所有包含的字符n-gram进行评分来为任何字符串对分配分数。最后，使用全局log-linear模型组合得分。

实体Popularity

发现在实体链接中非常有用的另一个上下文独立特征是候选实体在实体mention 方面的Popularity，这告诉我们在给定实体的情况下出现候选实体的先验概率。他们的观察结果是，具有相同mention形式m的每个候选实体

具有不同的Popularity，并且对于给定的mention形式m，一些实体非常模糊且罕见。例如，关于实体提到“纽约”，候选实体纽约（电影）比候选实体纽约市少得多，并且在大多数情况下，当人们提到“纽约”时，他们指的是纽约而不是电影的名字也是“纽约”。许多最先进的实体链接系统[22,58,62,73,76,78,79,92,96]通过利用维基百科的计数信息形式化这一观察，并定义流行特征Pop（ ei）对于每个候选实体ei∈Em，关于实体mentionm作为与mention形式m的链接的比例作为指向候选实体ei的锚文本：

其中

是指向实体ei并且mention m作为锚文本的链接数。

一些研究[22,56]利用与每个候选实体相关联的维基百科页面视图统计来估计实体Popularity。为了表达候选实体的Popularity程度，Dredze等人。 [83]添加了从候选实体的Wikipedia图结构中获得的特征，如节点的入度和节点的出度和Wikipedia页面长度（以字节为单位）。此外，他们使用Google的PageRank添加一个功能，该功能指示候选实体在Google结果页面中对应维基百科页面的排名，以查询实体mention。

由于出现在文本中的大多数实体mention代表了显式的实体，因此在大多数情况下，仅使用实体popularity特征可以产生正确的答案。 Ji和Grishman [100]进行的实验表明，仅基于WebPopularity 的候选排名方法可以达到71％的准确率，这比TAC-KBP2010轨道中的24个系统运行要好。因此，我们可以说实体popularity特征对于实体链接任务非常重要和有效。

实体类型

该特征用于指示文本中mention的实体类型（即，人，位置和组织）是否与知识库中候选实体的类型一致。 Nemeskey等。 [86]使用他们的内部命名实体识别器[101]来识别文本中提到的实体的实体类型以及知识库中类型不可用的某个候选实体。 Dredze等人。 [83]根据维基百科中的信息框类信息推断候选实体的实体类型。莱曼等人。 [69]和Monahan等人。 [73]使用LCC的CiceroLite NER系统[102]来确定文本中提到的实体的实体类型，而对于候选实体的实体类型，他们使用从候选实体所在的知识库开始的级联资源。如果知识库中未知类型，则咨询DBpedia。作为最后的手段，咨询LCC的WRATS本体资源。来自CiceroLite，DBpedia和WRATS的实体类型都被简化为三种常见实体类型（即人员，位置和组织）。

虽然与上下文无关的功能很有用，但它们仅提供实体mention 和候选实体的信息。非常有必要使用与实体mention 的上下文相关的功能。我们在下面讨论这个问题。

上下文依赖的特征

文本内容

关于文本上下文的最直接的特征是测量实体mention 的周围文本与与候选实体相关联的文档之间的文本相似性。文本可以用很多不同的方式表示：

词袋(bag-of-words): 对于每个实体mention，文本以从整个实体mention出现的输入文档中收集得到的词袋表示. 对于每个候选实体，上下文通常表示为来自整个维基百科实体页面[44,59,62,66,70,75,96]的词袋，其维基百科页面的第一个描述段[62]，在维基百科页面语料库[79]中该实体的每个出现周围的合适窗口，或维基百科页面的前k标记TF-IDF摘要[22,76]。
概念向量: 出现实体mention的一般文件或候选实体的维基百科文章，系统提取一些关键短语[58]，锚文本[62]，命名实体[65,83,94]，类别[60,83]，描述性标签[ 56]，以及来自它的维基百科概念[61,71,73,78]组成概念向量来表示文档的语义内容。此外，候选实体的上下文可以通过其维基百科中的相关链接实体，其属性以及通过维基百科信息框[67,69,83]已知的相关事实来表示。

基于以上这些不同的表示形式, 可以将mention或与候选实体相关联的实体周围的每个文本转换为向量。为了计算向量之间的相似性，可以使用不同的方法，包括点积[22,62,75]，余弦相似性[44,59,62,65,66,68,70,76,79,83,90,94] ]，Dice系数[83]，单词重叠[58,96]，KL散度[58]，基于n-gram的度量[58]和Jaccard相似度[62]。

此外，Han和Sun [74]利用unigram语言模型对每个候选实体的上下文知识进行编码，这可以告诉我们实体出现在特定上下文中的似然性。主题建模[103]也被用于模拟文档的基础语义主题以计算上下文相似性[70,72,96,104]。 He等人 [105]提出了一种深度学习技术[106]，基于假设正确的映射实体应该比任何其他候选实体更加类似于实体mention的上下文，自动学习实体链接的上下文 - 实体相似性度量。最近，李等人。 [107]提出了一种生成模型，以从内部和外部语料库中挖掘出的entity-word分布的形式，增加知识库中实体的上下文信息。

映射实体的一致性

实体mention的文本背景无疑会起到联系作用。此外，对于实体mention，需要在同一文档中链接的其他实体mention对其链接也很重要。许多最先进的实体链接系统假定文档主要是指来自一个或几个相关主题的连贯实体，并且可以利用该主题一致性来集中链接同一文档中的实体mention。因此，它们利用一个文档中的映射实体之间的局部一致性特征来帮助链接实体[22,58,60,62,75,76,78,79,90,91,92,93]。

为了衡量映射实体之间的一致性，Cucerzan [60]首先利用了两个候选实体的类别之间的一致性。另外，一些方法[58,62,75,76,78,79,91,96]采用[108,109]中描述的基于维基百科链接的测量（WLM）来计算维基百科实体之间的主题一致性，假设两个维基百科如果有许多维基百科文章链接到两者，则认为实体在语义上是相关的。 WLM是从标准化Google距离[110]建模的。给定两个维基百科实体u1和u2，它们之间的主题一致性定义如下：

其中U1和U2分别是链接到u1和u2的维基百科文章集，而WP是维基百科中所有文章的集合。除了标准化的Google Distance模型，Ratinov等人。 [76]建议使用类似PMI（Point-wise Mutual Information）的度量来计算维基百科实体之间的主题一致性：

此外，郭等 [22]计算了Jaccard距离来衡量维基百科实体之间的主题一致性：

以上三项措施[22,76,108]基于维基百科的链接结构。但是，对于长尾和新出现的实体，这些实体很少或没有与之相关的链接，这三项措施都不能很好地发挥作用。为了解决这个问题，Hoffart等人。 [111]提出了一种称为KORE的有效度量，它计算两个实体之间的局部相干性，表示为一组加权（多词）关键短语，同时考虑部分重叠的短语。为了提高效率，他们使用了基于min-hash草图和局部敏感哈希的两级近似技术。

最近，Ceccarelli等人。 [112]建议利用学习对模型进行排名，以便在一个好的衡量标准应该促进正确的映射实体之间的主题一致性的假设下，学习实体之间的主题一致性。学习度量是实体之间27种不同度量的加权组合，包括WLM [108]，point-wise mutual information [76]和它们的链接内文章集之间的Jaccard相似性[22]。实验结果表明，他们学到的测量结果优于其他先前提出的测量方法。但是，它比其他措施更耗时。此外，Han和Sun [93] 通过主题模型技术模仿了主题一致性方法.。

为了衡量Web列表中实体之间的一致性，Shen等人。 [92]利用两类信息：（1）基于类型层次的相似性，它基于两个实体在类型层次结构中处于紧密位置时在语义上相似的假设; （2）分布式上下文相似性，它基于在类似上下文中出现的实体在语义上相似的假设，这是分布式假设的扩展。

虽然发现映射实体之间的一致性特征在实体链接任务中非常有效[22,58,60,62,75,76,78,79,90,91,92,93]，但该特征的计算却并不容易和直截了当。要为一个实体mention计算此特征，系统必须知道同一文档中其他实体mention的映射实体。不幸的是，这些映射实体对我们来说是未知的，需要在此任务中分配。因此，一个文档中实体mention的实体分配彼此相互依赖。根据工作[58,62,92,96]，该问题的优化被证明是NPhard的，这使得该特征在计算上昂贵并且对于现实世界的应用来说是耗时的。

讨论: 特征

这里介绍的大量特征反映了实体链接系统在处理实体链接任务时可以考虑的大量方面。不幸的是，很少有研究比较这里提出的各种功能的有效性。但是，我们强调在所有类型的数据集中没有任何特征优于其他特征。甚至一些在某些数据集上表现出强大和高性能的功能也可能在其他数据集上表现不佳。因此，在为实体链接系统设计特征时，需要在许多方面做出决定，例如准确性和效率之间的权衡，以及应用数据集的特征。

有监督排序方法

监督排名方法使用带注释的数据集来“学习”如何将适当的映射实体分配给每个实体mention。训练数据集通常包含一组示例，其中每个实体mention都是用其映射实体手动注释的。在本小节的其余部分，我们将详细介绍用于对候选实体进行排名的监督排名方法。

二分类方法

一些系统[63,65,66,69,73,94,104]将候选实体排序问题公式化为二元分类问题。给定一对实体mention和候选实体，他们使用二元分类器来确定实体mention 是否指向候选实体。训练或测试实例由一对实体mention 和候选实体⟨m; ei⟩组成。如果实体mention m指实体ei，则此实例的标签为正，否则为负。在训练阶段，许多人标记为⟨m; ei⟩对用于学习分类器。在测试阶段，每次测试⟨m; ei⟩对被呈现给分类器，然后分类器输出指示其正或负的类标签。每个⟨m; ei⟩对表示为由3.1节中描述的特征组成的特征向量。对于一个实体mention，如果有两个或更多候选实体被标记为正，则采用一些技术来选择最可能的一个，例如基于置信度的方法[63,69,104]，基于VSM的方法[65]和SVM排名模型[66]。对于二元分类器，大多数系统采用支持向量机（SVM）[65,66,94,104]。支持向量机[113]基于从训练数据集学习超平面的想法，该超平面将正例和负例分开。超平面位于超空间的那个点，其最大化到最接近的正面和负面示例的距离。除了SVM分类器，Lehmann等人。 [69]和Monahan等人。 [73]利用二元逻辑分类器和Varma等人。 [63]使用朴素贝叶斯分类器和K-Nearest Neighbors分类器。

学习排序方法

尽管二元分类方法是处理候选实体排名任务的一种自然而简单的方法，但它有几个缺点。首先，训练数据非常不平衡，因为绝大多数候选实体都是反面的例子。此外，当用于实体mention 的多个候选实体被二元分类器分类为肯定时，它们必须利用其他技术来选择最可能的一个。

相反，许多实体链接系统[59,62,66,68,70,72,76,78,83,84,92,94]利用学习排序框架[114]进行排名，以给候选实体集和考虑同一实体mention的候选实体之间的关系，而不是像二分类器那样独立地考虑它们。学习排名是一种监督技术，其目标是从训练数据自动构建排名模型。用于学习排名模型的训练数据包括在每个列表中的项目之间指定了一些部分顺序的项目列表。虽然对于实体链接的问题，这些方法只关注候选实体集中的单个正确映射实体，因此强加了宽松的要求，即正确的映射实体应该排在最高位置。该公式解决了二元分类的问题。首先，培训数据是平衡的，因为我们对每个实体mention 都有一个排名示例。其次，方法只需要选择在测试阶段获得最高分的候选实体作为每个实体mention 的映射实体，而不是采用其他技术来选择最可能的实体。在这个学习框架中，每个实例也由一个特征向量组成，该特征向量由3.1节中描述的特征组成。

利用学习排名框架的大多数实体链接系统[59,62,66,70,72,76,78,83,84,92,94]利用排名SVM框架[115,116]来学习排名模型。他们使用基于训练数据集的最大边距技术。他们假设对于每个实体mention m, 它对应的ground truth映射实体是em∈Em，正确的映射实体得分（em）的得分应该高于具有边界上的任何其他候选实体得分（ei）的得分，其中ei ∈Em和ei̸= em。这为他们提供了所有实体mention 的常用SVM线性约束：

约束条件为

, 优化目标为

, 其中 C 是边界大小和训练误差间权衡的参数.

LINDEN [78]给出了每个实体mention的候选实体的排名，具有四个特征的线性组合：实体popularity，语义关联性（即，基于Wikipedia超链接结构的语义上下文相似性），语义相似性（即，源自的语义上下文相似性） YAGO的分类法，以及绘图实体之间的全局主题一致性。 LINDEN使用上面介绍的最大边距技术来学习特征权重，并且在TAC-KBP2009数据集实现了84.3％的准确率。

郑等人。 [68]研究了另外两种不同的学习方法，用于对候选实体进行排名的框架：成对框架排名感知器[117]和列表框架ListNet [118]。在他们的实验中，与二元分类方法相比，学习排名方法已经显示在候选实体排名任务中获得了更好的结果，并且ListNet显示出比排名感知器稍微改进。他们在TAC-KBP2009数据集上的总体准确率达到了84.9％。此外，Chen和Ji [94]还利用列表排名ListNet对候选人进行排名。

概率方法

Kulkarni等[62]提出了一个实体链接系统，它将一个文件中的所有实体mention 明确地联系起来。他们的指导前提是文档主要指的是局部连贯的实体，他们利用这种“局部连贯性”来处理候选实体排名问题。他们的方法从基于SVM的监督学习者开始，用于局部上下文相似性，并使用概率图形模型将其与候选实体的成对文档级主题一致性进行建模。该模型的优化显示为NP难度。为了解决这个问题，他们采用近似和启发式方法，如爬山技术和linear program relaxations。实验结果表明，它在创建的IITB数据集上实现了69％的F1 值。然而，即使该优化模型的近似解决方案也具有高计算成本并且是耗时的。

为了处理表格注释任务，Limaye等人。 [119]建议同时使用知识库中具有关系的实体，具有类型和表对列的表列来对表格单元进行注释。他们在合适的联合分布之后使用许多相互关联的随机变量对表格注释问题进行建模，并使用概率图形模型来表示它们。这个任务的推论是搜索最大化联合概率的变量的值赋值，这是NP难的。他们采用称为消息传递[120]的近似算法来解决这个问题。表注释中的三个子任务被集体求解，与单独为每个子任务做出决策相比，这可以获得更好的结果。

Han和Sun [74]提出了实体mention模型，一种生成概率模型，将Web自由文本中的实体mention与知识库联系起来。该模型将三种类型的异构知识（即，popularity知识，名称知识和上下文知识）合并到用于实体链接任务的统一概率模型中。具体而言，popularity知识告诉我们实体出现在文档中的可能性。名称知识告诉我们实体的可能名称以及引用特定实体的名称的可能性。上下文知识告诉我们实体出现在特定上下文中的可能性。在此模型中，mention要链接的每个实体都被建模为通过三步生成的样本。实验结果表明，该方法可以达到比TAC-KBP2009数据集高86％的准确率。

Demartini等人。 [121]提出了一个名为ZenCrowd的系统，并试图利用人类智能来提高实体链接结果的质量。他们开发了一个概率推理框架，动态地做出关于实体链接的合理决策，同时考虑到众包平台上的人工和自动机器技术的结果。如果某些实体链接由基于机器的技术生成的结果被认为是有希望但不确定的，那么它们将被用于动态生成微任务，然后在众包平台上发布。当众包平台上的人工执行这些微任务时，他们的结果被反馈到概率推理框架，这可以在结合来自任意人类工作者的不一致输出之后产生最终结果。

基于图的方法

与以前的研究工作相比[62]，它以成对的方式模拟候选实体的文档级主题一致性，Han等人。 [75]提出了一种基于图的集体实体链接方法，用于模拟一个文档中不同实体链接决策之间的全局主题相互依赖性（而不是成对相互依赖性）。首先，他们提出了一种基于图形的表示，称为参考图(Referent Graph)，它可以模拟文本上下文相似性和实体链接决策之间的全局主题相互依赖性（即，第3.1.2.2节中介绍的映射实体之间的一致性特征）作为其图形结构体。然后他们利用一个纯粹的集体推理算法而不是参考图来联合推断同一文档中所有实体mention 的映射实体，这类似于主题敏感的PageRank算法[122]。实验结果表明，通过建模和利用全球的相互依赖性，Han等人。 [75]可以比成对相互依赖模型[62]进一步改善实体链接性能，其中F1测量值比IITB数据集高73％。

与此同时，霍法特等人。 [58]还提出了一种基于图的集体实体链接方法。该模型将三个特征组合成图模型：实体popularity，文本上下文相似性以及映射实体之间的一致性。他们构建了一个提取实体图，一个加权和无向图，实体mention和候选实体作为节点。在该mention 实体图中，提取实体边缘通过实体Popularity 特征和文本上下文相似性特征的组合来加权，并且实体 - 实体边缘由基于维基百科超链接结构的一致性加权（参见第3.1.2.2节）。）。给定这个构造的图，他们的目标是计算一个密集的子图，其中包含每个实体mention的一个提到实体边缘。然而，这个问题是NP难的，因为它推广了经过充分研究的Steiner树问题。为了解决这个问题，Hoffart等人。 [58]开发了一种贪婪算法，扩展了[123]中提出的算法。实验结果表明，它优于集体实体链接系统[62]和Cucerzan [60]的方法，并且比其自己的CoNLL数据集实现了81.8％的准确性。

沉等人。 [79]提出了一个名为KAURI的基于图形的框架，通过对该用户感兴趣的主题进行建模，将一个用户发布的所有推文中的所有命名实体mention 集中链接到知识库。他们的假设是每个用户都有各种命名实体的基本主题兴趣分布。 KAURI将推文内本地信息与推文间用户兴趣信息整合到一个统一的图形模型中。对于内部推文本地信息，KAURI利用三个特征：实体popularity，文本上下文相似性以及推文中实体之间的一致性。由于单个推文可能太短且噪声很大，无法为实体链接提供足够的上下文信息，因此KAURI通过对用户感兴趣的主题建模来利用推文中的用户兴趣信息。实验结果表明，它在精度方面明显优于LINDEN [78]和许多基线模型，并且可以很好地扩展到推文流。

模型组合

模型组合，也称为集合方法，通常将具有显着不同性质和特征的学习算法聚合在一起[124,125]，并寻求获得比它们组合的任何模型更好的预测性能[126]。模型组合变得越来越流行，因为它允许人们克服单个模型的弱点。最近，基于各种资源的不同实体链接系统的数量的增加提供了从实体链接任务的模型组合中受益的新机会。

张等人。 [66]是第一个将模型组合策略用于实体链接任务的人。他们开发了三个单一系统（即基于信息检索的系统（参见第3.3.2节），基于排序的学习系统和二元分类系统），并使用监督方法将它们组合成最终系统。选择SVM三级分类器来判断三个系统中的哪一个应该被信任。实验结果表明，组合系统的性能优于每个单独的组件，并且比TAC-KBP2010数据集具有79.4％的准确率。此外，Ji和Grishman [100]还对TAC-KBP2010轨道中的前九个实体链接系统应用了投票方法，发现所有组合订单都获得了显着的收益，与top实体相比，其准确度的绝对性提高了4.7％链接系统在TAC-KBP2010轨道中。 Chen和Ji [94]使用简单的复合函数（例如，多数表决和加权平均）来整合八种基线方法，包括四种监督方法和四种无监督方法。实证结果表明，组合模型在最佳基线方法上获得1.3％（多数表决函数）和0.5％（加权平均函数）的绝对准确度增益。此外，CUNY-UIUC-SRI系统[95]结合了[94]中描述的协作排序框架和基于多数表决的[76]中描述的实体链接系统。该组合系统在TAC-KBP2011数据集上实现了77.1％的F1值。

数据集生成

监督排序方法的一个问题是需要许多带注释的训练示例来训练分类器。此外，由于引用的知识库的大小，链接注释的实体昂贵且非常耗时。一些受监督的排名方法在一个由数千个标记实体mention 的小手动创建的数据集上训练他们的模型[78,83,84,127,128]。一些系统[59,76,129]使用维基百科文章中的超链接来构建训练数据集。然而，这些训练数据集是从维基百科创建的，在目标新域中不能很好地工作[65]。基于这一观察，张等人。 [65]提出了一种自动生成大规模注释数据的新方法。具体而言，他们利用文档集合中明确的实体mention（即，与知识库中仅一个实体相关联的实体mention），并将其替换为其模糊名称变体以创建更多训练数据。此外，他们还利用Wikipedia文档通过域自适应方法提供额外信息[130]。最后，他们从170万份文件中生成了45,000个标签实例。通过利用生成的注释数据，它们的准确率比TACKBP2009数据集高83.8％。

但是，自动生成的注释数据的分布与实际链接数据集的实体不一致。为解决这个问题，张等人。 [72]使用实例选择策略（类似于主动学习[131,132]）从生成的实例中选择更平衡和信息丰富的子集。最后，他们报告了TACKBP2010数据集的准确率为86.1％。

无监督排序方法

基于VSM 的方法

为了避免手动注释劳动密集且成本高昂的训练数据，一种简单的方法是使用基于无监督矢量空间模型（VSM）[133]的方法[60,61,67]对候选实体进行排序。他们首先计算实体mention 的矢量表示与候选实体的矢量表示之间的相似性。然后，选择实现最高相似性得分的候选实体作为实体mention 的映射实体。那些各种方法在矢量表示和矢量相似度计算的方法上不同。

具体地，Cucerzan [60]提取候选实体文章中提到的所有实体引用以及与候选实体文章相关联的所有类别标签以构成候选实体的向量。对于实体mention，Cucerzan通过识别出现在其上下文中的实体引用集来构建其向量。最后，该系统通过最大化候选实体和实体mention 之间的向量相似性以及与候选实体相关联的类别之间的一致性来识别实体mention 的实体分配。最后，该系统在新闻文章数据集上的准确率达到91.4％。

Han和Zhao [61]首先从实体mention和候选实体文章的背景中检测出所有维基百科的概念。矢量相似度被计算为实体mention的向量中的维基百科概念与候选实体之间的所有语义相关性[108]的加权平均值。他们报告了TAC-KBP2009数据集的准确率为76.7％。

此外，陈等人。 [67]使用来自其上下文中的词袋及其相关属性，为实体mention 和候选实体生成向量。为了计算向量之间的相似性，他们利用TF-IDF相似性。他们在TAC-KBP2010数据集上获得了71.2％的准确率。

基于信息检索的方法

一些实体链接系统将候选实体排名问题视为基于信息检索的排名问题[63,64,66,77,86]。在他们的模型中，每个候选实体被索引为单独的文档，并且对于每个实体mention，它们从实体mention及其上下文文档生成搜索查询。最后，搜索查询被给予候选实体索引，并且检索具有最高相关分数的候选实体作为实体mention的映射实体。

Gottipati和Jiang [77]利用基于统计语言模型的信息检索方法对候选实体进行排名。具体来说，他们采用了广泛使用的KL-散度模型[134]。鉴于候选实体e和实体mention m，他们根据下面定义的KL散度得分e：

其中θm和θe分别是实体mention语言模型和候选实体语言模型。 V是词汇，w是单个词。为了估计θe，他们使用来自候选实体名称字符串及其消歧文本的Dirichlet平滑[135]的标准最大似然估计。为了估计θm，他们使用了实体提到字符串中的经验词分布。此外，他们还利用local文本和global world知识来扩展实体mention 语言模型θm。最后，他们选择具有最高分数的候选实体作为实体mention m的映射实体。该系统在TAC-KBP2010数据集上显示出竞争力（即85.2％的准确度）。

不可链接实体预测

在上一节中，我们回顾了用于对Em中的候选实体进行排名的主要技术。实体链接方法可以选择来自Em的top ranked实体e top作为实体mention m的映射实体。但是，在实践中，某些实体mention的知识库中没有相应的记录。因此，他们必须处理预测不可链接的mention的问题。在本节中，我们将简要概述预测不可链接的mention的主要方法。为简单起见，许多研究[60,62,75,92,93,119,121]假设知识库包含所有实体mention的所有映射实体，因此忽略实体mention的不可链接问题。一些方法[63,67,86]利用简单的启发式方法来预测不可链接的实体mention。如果由候选实体生成模块生成的mention m的候选实体集合Em为空，则它们将提mention m预测为不可链接并且为m返回NIL。

除了这些方法之外，许多实体链接系统[59,61,69,77,78,79,91,104,107]采用NIL阈值方法来预测不可链接的实体mention 。在这些系统中，排名靠前的实体e_top与分数s_stop相关联。如果s_stop小于NIL阈值，则它们为实体mention m返回NIL并且将mention m预测为不可链接。否则，他们将e_top作为mention m的正确映射实体。通常从训练数据中自动学习NIL阈值τ。

大量的实体链接系统[66,68,69,70,72,73,74,76,83,84]利用有监督的机器学习技术来预测不可链接的实体mention。具体地，方法[66,68,69,70,72,73,76]利用二元分类技术。给出一对实体mention及其排名靠前的候选实体⟨m; e_top⟩，二元分类器用于确定排名最高的候选实体e_top是否是该实体mention m的正确映射实体，并输出标签。如果对的标签⟨m; etop⟩是正的，它们将实体e_top作为m的正确映射实体返回，否则它们返回NIL用于mention m。每个⟨m; e_top⟩对表示为特征向量，此模块中使用的大多数特征与3.1节中描述的候选实体排名模块中使用的特征相同。此外，郑等人。 [68]和Ratinov等人。 [76]为不可链接的mention预测设计了一些附加功能，例如排名靠前的候选人的得分以及某些NER是否将实体mention检测为命名实体。对于二元分类器，大多数系统[66,68,72,76]使用SVM分类器。

此外，Dredze等人。 [83]，McNamee [84]，Han和Sun [74]将不可链接的mention预测过程纳入实体排名过程。其中，Dredze等人。 [83]和Mc-Namee [84]使用学习对框架进行排名以对候选实体进行排名，这已在第3.2.2节中介绍。为了预测不可链接的mention，他们在候选实体集中添加了一个NIL实体，并将NIL视为一个独特的候选者。如果排名者输出NIL作为排名最高的实体，则该实体mention被认为是不可链接的。否则，排名最高的实体将作为正确的映射实体返回。 [74]中提出的概率模型也无缝地考虑了不可链接的实体预测问题，而不是增加一个额外的步骤。该模型假设对于mention某个特定实体的实体mention，该特定实体模型生成的该实体mention的概率应显着高于通用语言模型生成的mention概率。它将NIL实体添加到知识库中，并假定NIL实体根据通用语言模型生成mention。如果由NIL实体生成的某些mention的概率大于知识库中任何其他实体生成的mention概率，则该mention被预测为不可链接。

评估

在本节中，我们将介绍与实体链接系统评估相关的一些问题：评估指标和实体链接数据集。关于state-of-art实体链接系统的实验性能，我们在第3节介绍这些系统时对它们进行了讨论。

评估指标

实体链接系统的评估通常根据评估指标来执行，例如精度(precision)，召回(recall)，F1值和准确性(accuracy)。

实体链接系统的精度计算为系统生成的正确链接的实体mention 的分数：

Precision考虑了系统链接的所有实体mention ，并确定实体链接系统链接的实体mention的正确程度。

精度通常与recall一起使用，正确链接的实体mention应该链接的部分：

Recall考虑了应该链接的所有实体mention，并确定链接的实体mention关于应该链接的实体总mention的正确程度。这两种测量有时在F1测量中一起使用，以便为系统提供单一测量。 F1测量被定义为精度和召回的调和平均值：

对于许多实体链接系统[59,60,63,66,68,69,72,74,77,78,83,84,92,119]，应该链接的实体mention作为这些系统的输入，因此系统生成的链接mention的数量等于应链接的实体mention的数量。在这种情况下，研究人员通常会使用准确度来评估系统的性能。准确度计算为正确链接的实体mention的数量除以所有实体mention的总数。因此，这里precision = recall = F1 =准确度。此外，准确性也被视为TAC-KBP track中的官方评估措施，将在本节的其余部分介绍。

实体链接数据集

一些研究人员[58,60,62,83,136]手动注释了一些数据集并将其公之于众。因此，这些数据集是实体链接任务的良好基准数据集。这些数据集的一些详细摘要可以在论文[33,137]中找到。另外，Cornolti等人。 [137]最近提出了一个公开可用的基准框架，用于比较包含某些实体链接系统的实体注释系统。

作为NIST文本分析会议（TAC）的一部分进行的知识库人口（KBP）跟踪是自2009年以来每年举办的竞赛的国际实体。实体链接被视为该track中的两个子任务之一。这些连接竞争的公共实体提供了一些基准数据集[89,100,138,139]来评估和比较不同的实体链接系统。 TAC-KBP轨道要求参与轨道的系统独立地处理实体mention，这意味着它们要求系统不能根据任务描述利用实体mention 集之间的主题一致性。此外，以TAC-KBP2009数据集为例，总共3904个实体mention 分散在3688个文档中，根据统计数据，每个文档在其上下文中最多两个mentions。因此，几乎所有主要利用局部一致性特征来连接实体[58,62,75,93]的系统都没有通过TAC-KBP数据集进行评估。

展望与总结

在本文中，我们提供了一个实体链接的综合报告。具体来说，我们调查了实体链接系统的三个模块中使用的主要方法（即候选实体生成，候选实体排名和不可链接mention预测），还介绍了实体链接的其他关键方面，如应用，特征和评价指标。

虽然提出了很多方法来处理实体链接，但目前尚不清楚哪种技术和系统是当前的最好的技术，因为这些系统在多个方面都有所不同，并且在不同的数据集上进行评估。单个实体链接系统通常对不同的数据集和领域表现差异较大。尽管有监督的排名方法在候选实体排名方面似乎比无监督方法表现得更好，但实体链接系统的整体表现也受到其他两个模块中采用的技术的显着影响（即，候选实体生成和不可链接的mention预测）[33]。监督技术需要许多带注释的训练示例，注释示例的任务成本很高。此外，实体链接任务是高度依赖数据的，并且技术不太可能支配所有数据集中的所有其他技术。对于给定实体链接任务，很难确定哪种技术最适合。有许多方面会影响实体链接系统的设计，例如系统要求和数据集的特征，这类似于3.1.3节中介绍的特征选择问题。

尽管我们的目前已经在实体链接方面有了很大进展，但我们认为在这一领域仍有许多实质性改进的机会。在下文中，我们指出了实体链接中一些有前景的研究方向。

首先，大多数当前实体链接系统关注实体链接任务，其中从非结构化文档（例如新闻文章和博客）中检测实体mention。但是，实体mention也可能出现在其他类型的数据中，这些类型的数据也需要与知识库相关联，例如Web表[140,141]，Web列表[142,143]和推文[144,145]。由于不同类型的数据具有各种特征（例如，Web表是半结构化文本并且几乎没有文本上下文，并且推文非常短且有噪声），因此开发处理链接实体的特定技术是非常有意义和必要的。虽然一些研究人员初步解决了网络表[119]，网络列表[92]和推文[22,56,79,96,146]中的实体链接任务，但我们认为仍有很大的进一步改进空间。此外，应向研究人员提供具有这些不同类型的基准数据集的存储库，以便他们开发和评估他们在这些不同类型的数据中链接实体的方法。

其次，大多数关于实体链接的工作缺乏对计算复杂性的分析，并且它们通常不评估其系统的效率和可扩展性。但是，对于实时和大规模应用程序，效率和可伸缩性非常重要且必不可少。此外，越来越多的Web数据将使这个问题在未来更加普遍。因此，未来研究的一个有希望的方向是设计能够在保持高精度的同时显着提高效率和可扩展性的技术。虽然最近林等人。 [44]调查实体链接数百万文本提取，整体链接准确性不高（约70％），并有可能有很大的空间进行实质性的改进。此外，由于数据库社区中记录链接的一个特别关注点是效率，因此可以利用它们的加速技术来实现高效的实体链接方法。最近，一个连接数据集的大型实体（即Google的Wikilinks Corpus10 [147]）已经公开发布，其中包含超过1000万个网页中超过4000万个消除歧义的mention。这是开发和评估大规模实体链接系统的绝佳机会。

第三，对构建和填充特定领域知识库（例如，在生物医学，娱乐，产品，金融，旅游等领域）的不断增长的需求使得特定领域的实体链接也很重要。特定于域的实体链接集中于特定的数据域，并且特定于域的知识库可以具有与通用知识库（例如，维基百科和YAGO）不同的结构。到目前为止，Pantel和Fuxman [148]已经解决了将搜索引擎查询与大型产品目录中的实体相关联的任务，以及Dalvi等人。 [149]利用推文的地理方面来推断推文和餐馆之间的匹配。戴等人。 [150]采用马尔可夫逻辑网络来模拟交织的约束，以处理基因mention 链接的任务，其将每个基因实体mention 与大规模基因数据库联系起来。此外，沉等人。 [151]提出了概率模型，其将实体Popularity 模型与实体对象模型统一，以将Web文本中的命名实体与DBLP书目网络链接。我们坚信，这个方向值得研究人员进行更深入的探索。

最后，预计更多研究甚至更好地理解实体链接问题可能会导致更有效和高效的实体链接系统的出现，以及信息提取和语义Web领域的改进。