该论文是对2015年发表在IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINNERING的文章《Entity Linking with a Knowledge Base Issues Techniques and Solutions》的梳理与总结,旨在宏观上阐述实体链接的相关技术。该篇文章是由韩家炜所著。
本篇内容主要围绕论文的第二章——Candidate Entity Generation;第三章——Candidate Entity Ranking 展开。
候选实体生成(Candidate Entity Generation)
候选实体生成的方法主要是针对实体指称项表层形式和知识库中的实体名称,进行基于“字串比较”的方式而生成。
具体可以分为:1. 基于命名字典的方式;2.基于表层形式扩展的方式;3.基于搜索引擎的方式。
基于命名字典的技术
命名字典包含各种命名实体的名称的表达方式,如:变体、缩写、混淆名称、拼写变体和昵称等。
命名字典的构建利用了大量的Wikipedia中的信息,如:实体页面、重定向页面、消歧页面、首段加黑字段、Wikipedia中的超链接文本。
实体页面
Wikipedia中的每一个实体页面均描述了单一的实体和其聚焦的相关信息。
通常,每个页面的标题是该页中描述的实体的最常见名称。
将entity page中的title加到命名字典的key中,实体的描述加到value中。
重定向页面
每一个别名会有一个重定向页面,其可以指向Wikipedia中存在的实体。
重定向页面同城会指出同义词项、缩写项、所指实体的变体。
将redirect page 的title 加入到key中,将所指的实体加入到value中。
消歧页面
Wikipedia中的许多实体都由同样的名称,消歧页面的创建就是为了将他们更好的分开,并包含了这些实体的相关列表。
消歧页面对实体对缩写和别名的提取有很大的帮助。
将disambiguation page 中的title加入到key中,实体列表加入到value中。
首段加粗字段
在Wikipedia中第一段文字有加粗部分,其大部分是本文实体的昵称、别称、全称。
将 Bold phrases from first paragraphs 加入到key中,将当前描述的实体加入到value中。
Wikipedia文章中的超链接
Wikipedia中的文本进场包含很多超链接,连接到很多指称项的页面。
这些锚文本会对所指实体的同义词和其他变种的发现有很大帮助。
将锚文本中的信息加入key中,所指向的实体加入到value中。
最终的命名字典如下所示:
基于字典的方式可以根据key去找候选实体,同时也可以将key对应的value的候选实体加在候选实体集合中。
除了上述的生成方式,也可用规则生成较为模糊的结果:
- 实体指称项被候选实体完全涵盖(字符上的包含关系)
- 指称项和候选实体的首字母完全匹配
- 指称项和候选实体有共同的几个词汇
- 实体之间有较强的字串相似度,计算方式(character Dice score、skip bigram Dice score、 Hamming distance)
相比于精确匹配,模糊匹配的方式拥有较高的召回率,但是会有较大的噪音。
有些方法会在构建字典前对指称项作拼写检查。
从本地文档扩展表面的形式
由于有些实体指称项是全称的同义词或者是全称的一部分,所以该技术旨在从实体指称项出现的文档中识别可能的扩展变体。
具体的方法可以分为2类:启发式方法、监督学习的方法
启发式方法
- 利用模板进行匹配,比如:缩略词附近的括号内多为全称,反之亦然。Hewlett Packard(HP)
- 在文本中利用N-gram方式匹配指称项首字母(去除停用词后,进行全文匹配,如果找到相等的首字母,则认为是扩展形式)
- 采用NER的方式,在识别之后的实体中,查找是否有包含与被包含的关系。
监督学习的方式
对于较为复杂的扩展方式,基于启发式的方法就很难识别了。比如:CCP-Communist Party of China,DOD-United States Department of Defense。
首先根据预定义的规则进行候选扩展项的选择。
规则示例:首字母相同,或者包含不超过2个停用词。
然后将候选扩展项和指称项,表示成特征向量。包含但不限于(词性、指称项和扩展项的对齐信息)。
用SVM分类器对指称项-扩展项对进行训练,最后将其输出的置信度分数做判断。
基于搜索引擎的方法
一些实体链接系统利用了web上的信息进行候选实体识别。
将实体指称项,输入到搜索引擎(Google)中,选取页面中top20的Wikipedia页面加入候选集合中。
候选实体排序(Candidate Entity Ranking)
候选实体排序模块是实体链接系统的重要组成部分,其目的是在众多候选实体中找出最合适的候选实体。
候选实体排序可以分为两类:
- 监督学习排序方法
- 非监督学习排序方法
同样可以分为三类:
- 单实体排序方法
- 多个实体排序方法
- 协同排序方法
本章节主要按照第一种分类方法介绍排序算法。
本节内容分为:1. 特征介绍;2. 监督排序方法; 3. 非监督排序方法
特征
特征可以分为两类:上下文独立特征、上下文相关特征
上下文独立特征
1.名称字串比较
名称字符串比较是实体指称项和候选实体最直接的特征。
通常可以采用:edit distance、Dice coefficient score、character Dice、skip bigram Dice、left and right Hamming distance scores
常见的名称比较包括:
- 是否实体指称项正好与候选实体匹配。
- 是否实体指称项是否是候选实体的开始或者结束。
- 是否候选实体是实体指称项的前缀和尾缀。
- 是否实体指称项完全包含候选实体或者是相反的情况。
- 是否有完全相同顺序的字符串在实体指称项和候选实体中同时出现。
- 实体指称项和候选实体中完全相同的词汇的数目。
- 最长公共字序列占两者中较短的序列的长度比例
2.实体流行度
用于揭示候选实体集合中某实体的先验概率,例如:New York大多是指的城市,而不是一部名为New York的电影。
流行度的计算方法:
P o p ( e i ) = c o u n t m ( e i ) ∑ e j ∈ E m c o u n t m ( e j ) Pop(e_i)=\frac{count_m(e_i)}{\sum_{ej\in E_m}count_m(e_j)} Pop(ei)=∑ej∈Emcountm(ej)countm(e