Entity Linking with a Knowledge Base:Issues, Techniques, and Solutions笔记

小花博客

已于 2022-02-28 14:19:25 修改

阅读量848

点赞数 2

文章标签：知识图谱人工智能

于 2022-01-24 19:33:19 首次发布

本文链接：https://blog.csdn.net/qq_41703424/article/details/122673533

版权

Entity Linking with a Knowledge Base:Issues, Techniques, and Solutions笔记

阅读文献笔记

1 引言

1.1 动机

1. 网络数据的快速增加
2. 大部分数据都是自然语言，命名实体的歧义
3. 知识共享社区（维基百科）的出现和信息抽取技术促进了知识库的发展
    1. DBpedia [1], YAGO [2], Freebase [3], KnowItAll [4], ReadTheWeb [5], and Probase [6].
4. 将网络中的数据与知识库链接，有助于实现语义网络的愿景（给网络中大量的原生数据和噪声数据添加注释）
5. 实体链接能推动KBP、知识问答、信息集成
    1. KBP（Knowledge base population）任务的主要目标是知识库扩展和填充，将新抽取的信息与知识库做一个映射
    2. 为了回答一个问题What is the birthdate of the famous basketball player Michael Jordan?需要实体链接技术映射Michael Jordan到NBA运动员，而不是其他人，再检索出其生日。
6. 实体链接有助于集成不同页面、文档和站点上的实体的信息。
7. 实体链接任务具有挑战性
    1. 一个命名实体有多种表面形式：全称、部分名称、别名、缩写和替代拼写。
    2. 一个实体提及可能表示不同的命名实体。（Sun可以表示太阳、跨国公司、美国电视剧）

1.2 任务描述

在这里插入图片描述

1. 实体链接也称为命名实体消歧Named Entity Disambiguation (NED)
2. 实体链接之前要先做命名实体识别
3. 实体链接和命名实体识别相互作用
4. 词义消歧
5. 共指消解
6. 记录链接：匹配不同数据库的指向同一条实体的记录。
    1. 例如匹配一篇论文的两条出版记录
7. 如果能从文本中抽取提及的属性，记录链接也能应用到实体链接（不可行，太难）
8. 实体链接的三个模块（降低复杂度）：
    1. 生成候选实体：过滤掉知识库中不相关的实体
    2. 候选实体排序：找到提及最可能指向的实体
    3. 不可链接提及预测：对于没有链接实体的提及标记为NIL

1.3 在各个领域的应用

1.3.1 信息抽取

1.3.2 信息检索

1.3.3 内容分析

1.3.4 问答

1.3.5 知识库扩充

1.4 四种知识库简介

维基百科、YAGO、DBpedia、Freebase

2 候选实体生成

主要基于实体提及的各种表面形式和知识库中实体的字符串匹配

2.1 基于命名词典的方法（主要方法）

维基百科提供了一系列有用的特征，实体页，重定向页，消歧页，粗体短语，超链接。结合这些特征构建词典，词典中包含了大量命名实体的各种名称，例如名字变体、缩写，易混淆的名字，拼写变体，昵称。
实体页
    维基百科中的每个实体页面都描述了一个单独的实体，并包含了关于这个实体的信息。一般来说，每个页面的标题是这个页面中描述的实体的最常见的名称，例如，页面标题“Microsoft”是总部位于雷德蒙德的大型软件公司。因此，将实体页的标题以名称k添加到D中的键列中，并将该页中描述的实体添加为k.value。

在这里插入图片描述

重定向页
    重定向页面包含了同义术语、 缩写、或指向实体的其他变体。

在这里插入图片描述

消歧页面
    当多个实体被赋予相同的名字时，会提供一个消歧页面来区分它们。

在这里插入图片描述

首段的粗体短语
    通常，维基百科的首段是全文的总结，其中的粗体短语表示的是昵称、别名或全名。可以把惠普加在key中，也可以将惠普公司加在key中。

在这里插入图片描述

超链接
    指向实体页面的链接的锚文本提供了指向实体的同义词和其他名称变体。

在这里插入图片描述

除了维基百科，还可以利用查询点击日志和WEB文档来找实体的同义词。

对于构建的词典，提及和key之间的匹配一般采用如下方式：
    1. 实体名包含提及
    2. 实体名与提及的所有单词的首字母匹配
    3. 实体名与提及有共同的几个单词
    4. 实体名和提及有很强的字符串相似性。
        1. character Dice score, skip bigram Dice score, Hamming distance,
    5. 这种局部匹配产生的噪音也很大
    6. 检查提及是否拼写错误，例如使用拼写检查器，维基百科的搜索引擎（did you mean），谷歌搜索引擎

2.2 局部文档的表面形式扩展

获取提及的扩展变体（全名）

2.2.1 启发式方法

1. 括号匹配
2. N-Gram方法，删除停止词后，检查是否存在N个连续的单词与提及有一样的首字母。
3. 命名实体：如果某个命名实体包含提及，则认为这个实体是提及的扩展形式。
4. 缩写探测器：使用网络数据来确认缩写的扩展形式

2.2.2 监督学习方法

1. 启发式方法无法识别缺失或交换首字母的单词（CCP,Communist Party of China）(DOD,United States Department of Defense)
2. 通过一些预先定义的策略（文本匹配，首字母匹配）来识别候选扩展集。
3. 对每个候选扩展词和提及对使用SVM分类器输出置信度分数，选择分数最高的。

2.3 基于搜索引擎的方法

1. 将提及和简短的上下文提交给搜索引擎接口，然后获取维基百科的页面，维基百科页面对应的实体被加入到候选实体集中。
2. 直接将提及交给谷歌搜索引擎，然后获取返回页面的前20个结果内的维基百科页面。
3. 过滤了一些明显不相似的结果
4. 用维基百科进行关键词搜索，返回一个相关实体列表页

3 候选实体排序

1. 候选实体的数量一般不唯一，在TAC-KBP数据集上，平均数量大约为13，CoNLL上为73。
2. 候选实体排序分为两种办法：
    1. 有监督的排序方法
        1. 二分类方法
        2. 学习排序方法
        3. 概率统计方法
        4. 基于图的方法
    2. 无监督的排序方法
        1. 基于向量空间模型（VSM）的方法
        2. 基于信息检索的方法
3. 实体排序方法被分为三类：
    1. 单实体排序方法：不需要依赖提及之间的关系，主要利用提及的上下文相似性和候选实体相关联的文档
    2. 多实体排序方法：假设一个文档中的实体是相互依赖的，有一个或多个相关的主题。在这些方法中，一个文档中的提及通过“主题一致性”连接起来。
    3. 协同排序方法：识别其他文档中的具有相似表面形式和相似上下文的实体，他们利用跨文档信息进行排序。

3.1 特征

1. 上下文独立特征
    1. 仅仅依赖提及的表面形式，不依赖于提及的上下文信息
2. 上下文相关特征
    1. 与提及上下文相关，包括文档的其他提及的上下文

3.1.1 上下文独立特征

3.1.1.1 名称字符串匹配

1. 名称字符串比较是实体指称项和候选实体最直接的特征。
2. 字符串相似度计算方法：edit distance、Dice coefficient score、character Dice、skip bigram Dice、left and right Hamming distance scores。
3. 比较的特征包括：
    1. 是否提及正好与候选实体匹配
    2. 提及是否是候选实体名称的开始或者结束
    3. 候选实体是否是提及的前缀或者后缀
    4. 提及是否完全包含候选实体，反之亦然
    5. 是否有相同顺序的字符串在提及和候选实体中同时出现
    6. 提及和候选实体中相同的单词数目
    7. 最长公共子序列占两者中较短的序列的长度比例

3.1.1.2 实体流行度

用于表示候选实体集合中某实体的先验概率，例如：当我们谈论纽约，New York大多是指的城市，而不是一部名为New York的电影。
实体流行度特征的定义：
$Pop(e_i)=\frac{count_m(e_i)}{\sum_{e_j\in{E_m}}{count_m(e_j)}}$
$count_m(e_i)$ 是提及 $m$ 指向实体 $e_i$ 的链接数量，分母是所有链接的数量。
候选实体加入了其他的一些额外特征，例如结点的入度、出度、维基百科页面的字节长度、谷歌的页面排名。

3.1.1.3 实体类型

这个特性是用来表示文本中提到的实体(即人、位置和组织)的类型是否与知识库中候选实体的类型一致。
用内部的实体类型识别器，根据自己的数据集构建的识别器。
根据维基百科页面的infobox判断实体类型。
在这里插入图片描述

使用CiceroLite NER system识别提及的实体类型，对于候选实体，如果当前知识库中没有，则在CiceroLite, DBpedia, WRATS中找

3.1.2 上下文相关特征

3.1.2.1 文本上下文

文本上下文最直接的特征是计算提及上下文和候选实体的关联文档之间的相似性
1. 词袋：
    1. 对于提及的上下文，可以用提及的整个文档或者提及的合适的窗口收集的词袋表示。
    2. 对于每个候选实体的上下文，可以用来自整个维基百科页面、维基百科页面的首段描述、维基百科页面出现的实体的合适的窗口、维基百科页面的top-k的TF-IDF表示。
2. 概念向量：
    1. 对于提及出现的文档或者候选实体出现的维基百科文章，系统提取关键词、锚文本信息、命名实体、分类、描述标签和维基百科的概念组成一个向量来表示文档的语义概念。
    2. 对于候选实体的上下文，可以用维基百科的相关链接实体、属性以及它的infobox中已知的事实表示。
3. 对于不同形式的表示，为了计算提及和候选实体之间相似性，转换为向量表示。向量相似度计算包括：点积、余弦距离、Dice coefficient 、word overlap、KL-散度、n-gram度量、Jaccard相似度。
4. 一元语言模型：对每个候选实体的上下文编码，输出每个实体出现在特定上下文中的可能性。
5. 主题模型：对文档的语义主题建模，计算上下文相似性。
6. 深度学习技术：正确的映射实体与提及的上下文的相似性应该更高。
7. 生成式模型：以实体-词分布的形式，挖掘内部和外部语料库信息，增强知识库中实体的上下文信息。

3.1.2.2 映射实体的一致性

对于一个提及，该文档中的其他提及对其链接也很重要。因为同一文档中的多个提及对应的实体通常有主题一致性。

WLM为了测量映射实体间的一致性，假设如果有多个文章链接到2个实体，则认为这两个实体是语义相关的。WLM基于谷歌距离建模，给定两个实体 $u_1$ 和 $u_2$ ，主题一致性定义如下：
$Coh_G(u_1,u_2)=1-\frac{\log{(max(|U_1|,|U_2|))}-\log{(|U_1\cap U_2|)}}{\log{(|WP|)}-\log{(\min{(|U_1|,|U_2|)})}}$

$U_1,U_2$ 表示 $u_1,u_2$ 链接的文章数。 $W P$ 表示所有的文章数
其他度量方式：
PMI-like(Point-wise Mutual Information)：
$Coh_P(u_1,u_2)=\frac{|U_1\cap U_2|/|WP|}{|U_1|/|WP|\cdot |U_2|/|WP|}$
Jaccard distance:
$Coh_J(u_1,u_2)=\frac{|U_1\cap U_2|}{|U_1\cup U_2|}$

以上三个方法基于维基百科的链接结构。然而，对于长尾和没有相关链接的新实体，以上方法表现不好。

利用了两类信息：
基于类型层级的相似性：类型层次在位置上接近，那么在语义上也接近
基于分布式上下文相似性：出现在相似上下文的实体语义上也相似
尽管一致性特征很有效，但是成本太高。为了计算一致性，需要知道其他提及的对应实体，表现出NP-hard问题。

总结：
1. 以上所介绍的各种特征是实体链接系统采用的主要特征，没有任何一个特征在任何数据集上都优于其他特征。所以在实体链接系统设计时，需要考虑多方面的因素，比如精度和效率的平衡，以及数据集的特性。
2. 对数据集依赖太高，某些特征在这个数据集上表现的特别鲁棒，但是换到其他数据集，表现的就会很差。而且有些特征效率特别低。

3.2 有监督的排序方法

3.2.1 二分类方法

给定<提及，候选实体>，用分类器判断该提及是否指向候选实体。
在数据集中，如果提及指向候选实体，则标记为正样本，否则标记为负样本。每一对$<m,e_i>$都表示为特征向量。
如果有多个候选实体被标记为正向实体，则会使用其他方法选择最有可能的一项。    
例如：1.基于置信度的方法；2.基于VSM的方法；3.基于SVM 排序模型
对于二分类器，大部分系统采用支持向量机。此外还有逻辑回归二分类器，朴素贝叶斯分类器，KNN分类器。

缺点：

正负例样本的极度不均衡。
多个候选实体被分为正样本，则需要使用其他的技术去选择出最适合的一个。

3.2.2 学习排序方法

学习排序方法考虑了同一提及的不同候选实体之间的关系。
该方法的目的是从训练数据中，自动化构建一个排序模型。
排序模型的训练数据包含一些特定顺序的item的列表。
对于实体链接，仅关注候选实体集中的正确映射实体，因此加了一个宽松的要求，正确的映射实体排名最高。
解决了二分类中的问题：
    1. 训练数据是平衡的，因为我们对每个提及都有一个单一的排名示例。
    2. 在测试阶段，不需要求助于其他技术，只需要选择分数最高的实体作为正确的映射实体。
大多数链接系统使用ranking SVM framework学习模型。
除此之外，其他框架：
    3. the pairwise framework Ranking Perceptron
    4. the listwise framework ListNet

3.2.3 概率方法

提出了一个能够将一个文档中所有提及连接起来的系统。利用了文档的主题一致性来解决候选实体排序问题。

3.2.4 图方法

基于图的方式是在一个文档中将所有的实体构建一个图，通过上下文文本相似性、以及实体映射一致性作为实体间的关系，采用PageRank的方法进行推理。
具体来说将提及和候选实体集合作为图的节点构建无向图，边有两类，提及——候选实体；候选实体A——候选实体B。每个边拥有权重，权重可以以上述特征做组合或者是使用单一特征，利用相似度计算方法得到该值。
最后该图就是由提及和候选实体构成的，利用PageRank算法即可求得重要性的排序，最终得到候选实体。

3.2.5 模型结合方法

模型组合，也称为集成方法，通常将性质和特征显著不同的学习算法聚合在一起，并试图获得比它们组合的任何模型更好的预测性能。模型组合越来越受欢迎，因为它可以克服单个模型的缺点。
    1. 开发了三个单系统，基于信息检索的系统、基于排序方法的系统、基于二分类的系统，然后融合成一个系统。
    2. 用一个SVM三分类器判断该选择哪个系统。
    3. 还有人整合了TAC-KBP上的top-9的系统
    4. 整合了8个系统，包括4种监督和非监督

3.2.6 训练数据生成

使用维基百科的文章链接构建数据集
模糊提及的名称来生成更多的数据集

3.3 非监督排序方法

3.3.1 基于VSM的方法

将提及和候选实体用向量表示，然后计算相似度，选择得分最高的作为映射实体。
1. Cucerzan
    1. 对于候选实体，抽取了所有候选实体文章中的提及和候选实体文章的类别标签来构建候选实体向量。
    2. 对于提及，通过提及和上下文构建向量。
    3. 通过最大化两者之间的相似度
2. Han and Zhao
    1. 从提及的上下文和候选实体文章中识别出维基百科的所有概念
    2. 通过维基百科概念间的语义相关度的加权平均值来计算向量相似度。

3.3.2 基于信息检索的方法

在这类模型中，将每一个候选实体索引为一个单独的文本，由提及产生query。query可以来自于提及本身，也可以来自于实体的上下文。
根据提及和候选实体中的概率分布，计算KL散度，从而得到最终的相似度。

4 不可链接的提及预测

在实际中，一些提及在知识库中并没有对应的实体，因此，必须处理不可链接实体的预测问题。
1. 如果候选实体集为空，则标记为NIL。
2. 使用一个NIL阈值来判断。如果得分最高的候选实体小于阈值，则返回NIL。
3. 二分类：给定 $m,e_{top}>$ ，用二分类器判断 $e_{top}$ 是否是提及 $m$ 的映射实体。
4. 在候选实体集中加入一个NIL实体，让其一起进行排序。