【NLP学习笔记】知识图谱阅读笔记及其心得

第五章 实体消歧

5.1 任务概述

由于实体具有歧义性(一词多义、一义多词),所以实体识别的结果很难直接存放到知识图谱中。
一方面,同一实体在文本总会有不同的指称,(如篮球值神、老流氓、乔帮主、飞人都是美国著名篮球运动员迈克尔·乔丹的别名),这是指称的多样性(Name Variation)。
另一方,相同的实体指称在不同的上下文中可以指不同的实体,这是指称的歧义性。
因此必须对实体识别的结果进行消歧才能得到无歧义的实体信息。

5.1.1 任务定义

使用六元组。
实体指称项表示实体消歧任务的基本单位:一个实体指称项是一个在具体上下文中出现的待消歧实体名。
命名实体消歧函数是命名实体消歧任务的核心部分,直接影响系统的性能。

5.1.2 任务分类

按照目标实体是否给定:
(1)否:基于聚类的实体消歧系统
(2)是:基于实体链接的实体消歧系统

按照实体消歧任务的领域不同:
(1)结构化文本实体消歧系统
主要依赖字符串比较和实体关系信息完成消歧。
(2)非结构化文本实体消歧系统
主要用指称项上下文和背景知识完成消歧。

5.1.3 相关评测

1. WePS评测
	人名消歧任务 + 机构名消歧
2. TAC KBP评测
	该任务假设目标知识库是不完备的。

5.2 基于聚类的实体消歧方法

5.2.1 基于表层特征的实体指称项相似度计算
5.2.2 基于扩展特征的实体指称项相似度计算
5.2.3 基于社会化网络的实体指称项相似度计算

5.3 基于实体链接的实体消歧方法

实体链接,一般是将实体指称项链接到知识库中特定的实体。

实体链接,指的是讲一个命名实体的文本指称项(Textual Mention)链接到知识库中相应实体的过程,通常称为Entity Linking ,与 Entity Grounding, Entity Resolution, Record Linkage 和 Entity Disambiguation意义相近。

知识库中可能不包含待消歧指称项的对应实体,这时,将实体指称项链接到空实体NIL。

一般地,实体链接的输入包括两个部分:
(1)目标实体知识库
(2)待消歧实体指称项及其上下文信息

实体链接任务的两个步骤:
(1)连接候选过滤(Blocking)
(2)实体链接(Linking)

5.3.1 链接候选过滤方法

大部分工作都是基于实体指称项字典:通过在词典中记录一个指称项所有可能指向的目标实体来进行候选链接过滤。

传统的实体链接方法使用Wikipedia 等知识资源来构建指称项词典,包括Wikipedia Entity Name, Wikipedia Redirection Page , Wikipedia Disambiguation Page , Wikipedia Anchor Dictionary以及Wikipedia第一段里面的粗体字(也包括一个别名信息)。

为了匹配模糊的或者拼错的指称项,一些基于构词法的模糊匹配方法也在TAC评测中使用,如:Metaphone Algorithm和Soft TFIDF算法。

5.3.2 实体链接方法

实体链接,既是研究重点,又是难点。
1. 向量空间模型
2. 主题一致模型
3. 协同实体链接
4. 基于神经网络的实体消歧方法

5.4 面向结构化文本的实体消歧方法

现实世界中有大量的结构化文本,,如实体知识库,网页中的列表数据或者网络百页面中的Infobox数据。

其中还有一部分结构化数据只有实体或者很少的结构化信息。

结构化文本的实体消歧方法主要是利用实体的类别信息、实体的流行度和列表平中的其他信息进行消歧。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值