实体链接——《Entity Linking with a Knowledge Base Issues Techniques and Solutions》浅析

技术宅zch

于 2019-06-21 16:02:28 发布

阅读量5.9k

点赞数 4

分类专栏： NLP 知识图谱

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19672707/article/details/92831709

版权

本文围绕论文中候选实体生成和排序展开。候选实体生成有基于命名字典、扩展表面形式、搜索引擎三种方式；排序分为监督和非监督学习方法，介绍了上下文独立与相关特征，以及多种排序算法，如二分类、Learning to Rank等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实体链接综述

候选实体生成（Candidate Entity Generation）
候选实体排序(Candidate Entity Ranking)

该论文是对2015年发表在IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINNERING的文章《Entity Linking with a Knowledge Base Issues Techniques and Solutions》的梳理与总结，旨在宏观上阐述实体链接的相关技术。该篇文章是由韩家炜所著。

本篇内容主要围绕论文的第二章——Candidate Entity Generation；第三章——Candidate Entity Ranking 展开。

候选实体生成（Candidate Entity Generation）

候选实体生成的方法主要是针对实体指称项表层形式和知识库中的实体名称，进行基于“字串比较”的方式而生成。

具体可以分为：1. 基于命名字典的方式；2.基于表层形式扩展的方式；3.基于搜索引擎的方式。

基于命名字典的技术

命名字典包含各种命名实体的名称的表达方式，如：变体、缩写、混淆名称、拼写变体和昵称等。

命名字典的构建利用了大量的Wikipedia中的信息，如：实体页面、重定向页面、消歧页面、首段加黑字段、Wikipedia中的超链接文本。

实体页面

Wikipedia中的每一个实体页面均描述了单一的实体和其聚焦的相关信息。
通常，每个页面的标题是该页中描述的实体的最常见名称。
将entity page中的title加到命名字典的key中，实体的描述加到value中。

重定向页面

每一个别名会有一个重定向页面，其可以指向Wikipedia中存在的实体。
重定向页面同城会指出同义词项、缩写项、所指实体的变体。
将redirect page 的title 加入到key中，将所指的实体加入到value中。

消歧页面

Wikipedia中的许多实体都由同样的名称，消歧页面的创建就是为了将他们更好的分开，并包含了这些实体的相关列表。
消歧页面对实体对缩写和别名的提取有很大的帮助。
将disambiguation page 中的title加入到key中，实体列表加入到value中。

首段加粗字段

在Wikipedia中第一段文字有加粗部分，其大部分是本文实体的昵称、别称、全称。
将 Bold phrases from first paragraphs 加入到key中，将当前描述的实体加入到value中。

Wikipedia文章中的超链接

Wikipedia中的文本进场包含很多超链接，连接到很多指称项的页面。
这些锚文本会对所指实体的同义词和其他变种的发现有很大帮助。
将锚文本中的信息加入key中，所指向的实体加入到value中。

最终的命名字典如下所示：
在这里插入图片描述
基于字典的方式可以根据key去找候选实体，同时也可以将key对应的value的候选实体加在候选实体集合中。

除了上述的生成方式，也可用规则生成较为模糊的结果：

实体指称项被候选实体完全涵盖（字符上的包含关系）
指称项和候选实体的首字母完全匹配
指称项和候选实体有共同的几个词汇
实体之间有较强的字串相似度，计算方式（character Dice score、skip bigram Dice score、 Hamming distance）

相比于精确匹配，模糊匹配的方式拥有较高的召回率，但是会有较大的噪音。
有些方法会在构建字典前对指称项作拼写检查。

从本地文档扩展表面的形式

由于有些实体指称项是全称的同义词或者是全称的一部分，所以该技术旨在从实体指称项出现的文档中识别可能的扩展变体。

具体的方法可以分为2类：启发式方法、监督学习的方法

启发式方法

利用模板进行匹配，比如：缩略词附近的括号内多为全称，反之亦然。Hewlett Packard（HP）
在文本中利用N-gram方式匹配指称项首字母（去除停用词后，进行全文匹配，如果找到相等的首字母，则认为是扩展形式）
采用NER的方式，在识别之后的实体中，查找是否有包含与被包含的关系。

监督学习的方式

对于较为复杂的扩展方式，基于启发式的方法就很难识别了。比如：CCP-Communist Party of China，DOD-United States Department of Defense。

首先根据预定义的规则进行候选扩展项的选择。
规则示例：首字母相同，或者包含不超过2个停用词。

然后将候选扩展项和指称项，表示成特征向量。包含但不限于（词性、指称项和扩展项的对齐信息）。
用SVM分类器对指称项-扩展项对进行训练，最后将其输出的置信度分数做判断。

基于搜索引擎的方法

一些实体链接系统利用了web上的信息进行候选实体识别。
将实体指称项，输入到搜索引擎(Google)中，选取页面中top20的Wikipedia页面加入候选集合中。

候选实体排序(Candidate Entity Ranking)

候选实体排序模块是实体链接系统的重要组成部分，其目的是在众多候选实体中找出最合适的候选实体。
候选实体排序可以分为两类：

监督学习排序方法
非监督学习排序方法

同样可以分为三类：

单实体排序方法
多个实体排序方法
协同排序方法

本章节主要按照第一种分类方法介绍排序算法。
本节内容分为：1. 特征介绍；2. 监督排序方法； 3. 非监督排序方法

特征

特征可以分为两类：上下文独立特征、上下文相关特征

上下文独立特征

1.名称字串比较

名称字符串比较是实体指称项和候选实体最直接的特征。
通常可以采用：edit distance、Dice coefficient score、character Dice、skip bigram Dice、left and right Hamming distance scores

常见的名称比较包括：

是否实体指称项正好与候选实体匹配。
是否实体指称项是否是候选实体的开始或者结束。
是否候选实体是实体指称项的前缀和尾缀。
是否实体指称项完全包含候选实体或者是相反的情况。
是否有完全相同顺序的字符串在实体指称项和候选实体中同时出现。
实体指称项和候选实体中完全相同的词汇的数目。
最长公共字序列占两者中较短的序列的长度比例

2.实体流行度

用于揭示候选实体集合中某实体的先验概率，例如：New York大多是指的城市，而不是一部名为New York的电影。

流行度的计算方法：
$Pop(e_i)=\frac{count_m(e_i)}{\sum_{ej\in E_m}count_m(e_j)}$

最低0.47元/天解锁文章

博客等级

码龄11年

79
原创

388
点赞

1130
收藏

89
粉丝

关注

私信

热门文章

分类专栏

最新评论

聚类效果评估——轮廓系数（Silhouette Coefficient）附Python代码
RealMoYe: 博主您好，“是什么”部分，分离度定义中“紧密”一词应该是“分离”？
TensorFlow1.x入门（5）——构建非线性回归模型
Drew�: np.linspace拼写错误啦，可以更正下，支持博主
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
新一代图书管理员の养成笔记: 对NN能记住100条数据中前50条和后50条的次序区别存疑：以MLP为例，它内部不存在可以记忆时间的结构，如果前50条和后50条的信息是一模一样的，输入MLP，也将得到一模一样的结果，而如果MLP能记住“第几条数据”这个信息，则不可能得到一模一样的结果，故MLP记不住第几条数据的信息
Python中yield的作用与for循环的区别，yield关键字的白话解析
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8006779, 请多输出高质量博客, 帮助更多的人
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
qiao_yx: 在处理数据集时，是否将不同类别的数据一起做shuffle或分开处理取决于具体的情况和任务要求。将所有数据一起做shuffle然后划分数据集：适用场景：当你希望保持数据的随机性，并且对类别的顺序不敏感时，可以将所有数据合并后进行shuffle，然后再划分成训练集、验证集和测试集等。示例：在一个分类任务中，如果不同类别的数据在训练集和测试集中的分布比例是一样的，那么可以将所有数据合并后进行shuffle。分开类别分别做对应的操作：适用场景：当你希望在数据集的划分或处理过程中保持类别的平衡时，可以先将不同类别的数据分开，然后分别进行shuffle和处理。示例：在一个分类任务中，如果你希望训练集和测试集中的每个类别的样本数量保持大致相等，那么可以先将数据按类别分开，然后分别shuffle，最后再合并成训练集和测试集。具体选择哪种方式取决于任务的要求和数据集的性质。在实践中，可以根据具体情况灵活选择合适的方法。无论选择哪种方式，都要保证数据集的划分和处理是公平、合理的，以保证模型训练和评估的可靠性。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。