CAS-KG——实体消岐

最新推荐文章于 2022-08-16 17:15:54 发布

晴晴_Amanda

最新推荐文章于 2022-08-16 17:15:54 发布

阅读量1.4k

点赞数

分类专栏：知识图谱与语义计算文章标签：人工智能知识图谱

本文链接：https://blog.csdn.net/qq_38293297/article/details/105918074

版权

知识图谱与语义计算专栏收录该内容

12 篇文章

订阅专栏

说明：CAS是国科大的简称，KG是知识图谱的缩写，这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。

课程目标

了解以知识图谱为代表的大数据知识工程的基本问题和方法
掌握基于知识图谱的语义计算关键技术
具备建立小型知识图谱并据此进行数据分析应用的能力

教学安排
详情请见博客：CAS-KG——课程安排

1. 概述

实体消歧定义

命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体，例如，给定如下的四个实体指称项“Michael Jordan ”
确定一个实体指称项所指向的真实世界实体，这就是命名实体消歧

广泛存在的实体歧义
在这里插入图片描述
意义：知识图谱

意义：问答系统

实体歧义的来源

普通词的歧义

词义排歧 vs 实体消歧

词义排歧方法：David Yarowsky算法

实体消歧分类

2. 基于聚类的实体消歧

基本方法

基本思路

指向相同实体的实体指称项有相似的上下文
利用聚类算法进行消歧
核心问题：选取何种特征对指称项进行表示
 词袋模型(Bagga et al., COLING, 1998)
 语义特征(Pederson et al., CLITP, 2005)
 社会化网络(Bekkerman et al., WWW, 2005)
 维基百科的知识(Han and Zhao, CIKM, 2009)
 多源异构语义知识融合(Han and Zhao, ACL, 2010)

基于聚类的实体消歧:词袋模型

在这里插入图片描述

基于聚类的实体消歧: 语义特征

在这里插入图片描述

基于聚类的实体消歧：社会化网络

基于聚类的实体消歧: Wikipedia

在这里插入图片描述

基于聚类的实体消歧: 多源异构知识

在这里插入图片描述

基于聚类的实体消歧评测

WePS： Web People Search Evaluation

WePS1是SEMEVAL2007的子任务
WePS2是WWW的一个workshop
任务：Web环境中的人名消歧，即给定一个包含某个歧义人名的网页集合，按照网页中人名指称项所指向的人物概念来对网页进
行聚类，以及抽取一个网页中关于某个人的特定属性来辅助进行人名消歧。
评测方法

纯净度Purity：评价的聚类结果中每个类别中指称项的平均准确率。
倒纯净度Inverse Purity：评价的聚类结果中每个类别中指称项的平均召回率。

3. 基于实体链接的实体消歧

任务描述

任务：给定实体指称项和它所在的文本，将其链接到给定知识库中的相应实体上。
在这里插入图片描述

实体链接的输入输出

输入：

目标实体知识库：目前最常用的是Wikipedia，在其他一些任务中可能是特定领域的知识库，比如说社交媒体中的Yelp，电影领域的IMDB等。
待消歧实体指称项及其上下文信息。

输出：

文本中实体指称项映射到的知识库中的实体。

基本方法

主要步骤

候选实体的发现
- 给定实体指称项，链接系统根据知识、规则等信息找到实体指称项的候选实体
候选实体的链接
- 实体链接的核心
- 系统根据指称项和候选实体之间的相似度等特征，选择实体指称项的目标实体
无链接实体（NIL）的聚类

候选实体的发现

如何根据实体指称项找出候选实体？

利用Wikipedia的信息
利用上下文信息

在这里插入图片描述

候选实体发现：Wikipedia锚文本
超链接是指文本内由一文件连接至另一文件的链接；蓝色的字表示网页中的超链接；
在这里插入图片描述
候选实体发现：Wikipedia消歧页面
维基百科中用于消除“一词多义”所引起的歧义的页面。

候选实体发现：Wikipedia重定向页面

重定向是一种特殊的页面，它提供一种运作机制，使得人们在输入该名称进入条目时，系统能够自动导航到重定向页面内部指定的另一相关页面中，从而实现相关页面可以以多个名称进行访问。
例如：如果设定了“名称为‘澳洲’”，而内容指向“澳大利亚”的重定向页之后，任何人都可以用“澳洲”这一名称进入到澳大利亚条目中。

缩略语候选实体发现：利用上下文
缩略语在实体指称项中十分常见，据统计，在KBP2009的测试数据，在3904个实体指称项中有827个为缩略语，缩略语指称项具有很强的歧义性
动机：缩略语指称项具有很强的歧义性，但它的全称往往是没有歧义的
 ABC和American Broadcasting Company
 AI和Artificial Intelligence
解决方法：利用人工规则抽取实体候选。

候选实体链接

在这里插入图片描述
候选实体链接：利用先验知识做初始排序

候选实体链接：局部实体链接

传统特征的方法

BOW模型 (Honnibal TAC 2009, Bikel TAC 2009)
加入实体流行度等特征（Han ACL 2011）
加入候选实体的类别特征（Bunescu et al., EACL 2006）

表示学习的方法
卷积神经网络模型（Francis-Landau et al., NAACL 2016）
利用预训练实体向量表示实体（Ganea and Hofmann, EMNLP 2017）

候选实体链接：协同实体链接
在这里插入图片描述

基于图的协同链接

基于CRF的方法

基于Pair-Linking的方法

其他实体链接任务

跨语言实体链接

在这里插入图片描述
跨语言实体链接定义：

将一种语言的表述的实体指称项链接到另一种语言的知识库中，例如实体指称项是泰米尔语描述的，链接到英文Wikipedia中。
跨语言实体主要由 Text Analysis Conference（TAC）——Knowledge Base Population（KBP）——Entity Linking Tracks推动。

跨语言实体链接的难点：

跨语言实体链接中要利用到不同语言知识库之间的对应关系，但很多语言Wikipedia并不完备，例如北梭托语只有4000个Wikipedia页面。
带来两个问题
 跨语言候选实体生成很难。
 跨语言文本相似度计算很难：神经网络跨语言实体链接需要解决实体指称项描述语言词向量和英文词向量的位于不同语义空间的问题。

动机
 传统方法：首先翻译成目标语言，可能产生错误传递，需要大量的句子级平行的双语训练语料。
 对于低资源语言，双语对照数据匮乏，很难获取，无法训练机器翻译模型。
方法：利用双语隐含主题模型将实体指称项与候选实体映射到同一个主题空间中（数据集：TAC-KBP 2011）
 双语维基百科（双语可比语料）
 每一个隐含主题有两种不同的分布，分别对应两种不同语言
 处于同一个主题分布下的两种不同语言的词的分布具有一些共性

动机：传统方法很难将其他语言的词和英语的词映射在同一语义空间。
方法
 利用Skip-gram模型分别训练两个单语的实体向量和词向量；
 将超链接信息替换为对应的实体，实现实体向量与词向量训练。

如何解决跨语言候选生成困难的问题？

中文文本中“丹·罗斯“的实体消歧问题： “丹·罗斯“这个实体指称项没有对应的中文Wikipedia词条，所以由中文Wikipedia跳转到英文Wikipedia来查找候选是不能实现的。
在Dan Roth组2018年最新的工作中，将音译模型引入来解决跨语言候选生成中的问题。

实体列表中的实体链接

动机：
- 输入是网页实体列表，没有列表周围的文本来帮助实体指称项排歧
- 协同实体链接利用同一文档中的实体是语义相关的性质来帮助链接，而实体列表中的实体应该是拥有同一类型的实体，是语义相似而不是语义相关
假设：列表中所提及的所有实体应该是拥有同一类型的
基于”列表中的实体指称项应该拥有同一种类型”的假设，候选实体要满足：
- 这个候选实体的先验概率较高
- 这个候选实体的类型与同一个列表中其他列表项的对应实体的类型一致（语义相似）
建模语义相似的方法
- 基于类型层次结构的相似性
- 实体上下文分布相似性
- 利用最大间隔方法自动学习特征的权值，为每个候选实体定义链接质量
- 利用迭代替换算法对实体列表中所有相对应的实体进行联合优化

社交数据中的实体链接

社交媒体的特点（以Tweet为例）

用户多，每个月的活跃用户超过3亿3千万人
数目大，每天Tweet的数量超过5亿条, 主题从生活到突发的新闻

Tweet文本的特点：

字数限制，每条tweet不超过140个字，文本短
噪音大，非正式的缩写，写作方式口语化，打字错误
实时性强，tweet内容中包含了很多新发生的事件和新产生的实体

社交数据中实体链接面临的挑战

常用的实体链接方法中，实体指称项上下文和知识库中实体的描述之间的相似度是重要的特征。由于社交文本的特性，很难计算这一相似度。
常用的实体链接方法中，协同链接是重要的部分，但在社交数据中协同链接可能没有用武之地。以Tweet为例，每条Tweet中平均只包含0.76个实体，实体个数少，不同实体之间的一致性这一重要特征很难利用。

社交媒体实体链接：用户信息

动机

在社交数据中只利用上下文信息是不充分的，因此需要充分利用用户发布的其他推文来辅助链接。
同一个用户，关注的兴趣点是相对固定的。
- t1中Bulls是有歧义的，可能表达的是橄榄球队，可能是篮球队，也可能是一个地名。
- 如果我们知道t1和t4是同一个人发布的tweet， t4中提到了泰森·钱德勒、托尼·阿伦和NBA，这些都是篮球领域，因此可以推测出t1中的Bulls应该链接到芝加哥公牛（NBA球队）上。

假设

每一个Tweet用户都有一些感兴趣的话题，每一个话题都会覆盖某些实体。
如果一个实体被一个用户在某条tweet中提及，那么这个用户可能对这个实体感兴趣
如果一个实体和用户感兴趣的实体主题高度相关，那么这个用户可能对这个实体也感兴趣

方法

将实体链接任务转换为基于图的用户兴趣传播问题。
基于图的用户兴趣传播问题

社交媒体的实体链接：时空特性

动机

社交媒体数据中一般会有时间戳，有些文本还有地点信息，候选实体的先验信息会随着时间空间信息发生变化
方法

链接到受限知识库：Yelp

链接到Yelp

Yelp是一个点评类的平台，和国内的大众点评类似。Yelp中有很多实体并不会出现在Wikipedia中，比如说“口利福餐厅（Ho Lee Fook）”；同时很多普通用户也不会出现在Wikipedia中，但是他们都在Yelp这类平台上有账号，也是一个实体。

Yelp中的实体链接的难点

现有实体链接要借助知识库中实体丰富的信息，比如实体的描述，实体的不同的属性，实体之间的超链接。
社交媒体中实体的信息非常匮乏。

Yelp中有哪些独特的资源可以利用？

社交信息：David和Bob是朋友，David写了一篇评价中有一个实体指称项Red Rock需要消歧，而Bob之前的评论过一家叫Red Rock的赌场，而Bob正好是在Red Rock的赌场的页面下面评论的，没有歧义。因此，David评论中的Red Rock很可能是Bob去的那家。

方法：提取了传统实体链接特征、社交特征和地点特征。

实体识别和实体链接联合学习

实体链接和一些其他的NLP任务密切相关，比如：

共指消解：实体链接可以用来解决共指消解，也有的流水线模型，先做共指消解，再做实体链接。
实体识别：实体识别（实体发现）是实体链接的上游任务，实体识别的性能直接会影响实体链接的性能
细粒度实体分类（Entity Typing）：细粒度实体可以辅助实体链接，正确的实体链接也可以直接指导细粒度实体分类。

实体识别和实体链接联合学习
在这里插入图片描述

实体链接数据集和评测

实体链接：常用数据集

AIDA（AIDA CoNLL-YAGO ）：由马普研究所公开的数据集，是目前最大的手工标注实体链接数据集。它是基于CoNLL 2013 实体识别数据集上标注的，题材是路透社新闻。
WNED：自动构建的数据，数据规模很大。 WNED-CWEB 是从ClueWeb中自动构建的，WNED-WIKI是从Wikipedia中自动构建的。由于是自动构建的数据，所以数据中噪音比较大，可信度较低。
TAC KBP数据集 2009-2018：TAC (Text Analysis Conference) KBP(Knowledge Base Population)是国际上知名的实体链接评测，由美国国防高级研究计划局（DARPA）资助。数据来源是新闻和论坛，是手工标注的数据集。以TAC KBP 2015年为例，介绍数据集的规模。

实体链接：评测

在这里插入图片描述

2010年KBP的实体链接系统性能
在这里插入图片描述

在这里插入图片描述

2014年实体发现和实体链接性能

实体链接面临的挑战

实体链接面临的挑战：缩写与别名

缩写与别名的难点：在候选生成的时候如何将别名与缩写的实体引入
在这里插入图片描述

实体链接面临的挑战：常识知识

在这里插入图片描述
但是常识知识面临很多问题，比如：

如何定义常识知识
如何大规模地动态地获取常识知识
如何表示常识知识
如何将常识知识融入实体链接
…

实体链接面临的挑战：NIL问题

由于链接到的知识库不完备性，并不是每一个实体指称项在知识图谱中都能找到对应的实体。对于这类实体指称项，实体链接系统通常将其链接到一个特殊的空实体（NIL）上去，并将空实体聚类。
NIL问题可以分解成两个问题：
 无链接实体指称项预测
 无链接实体指称项聚类
无链接实体指称项预测，常用策略有四种：
 如果一个实体指称项对应的候选实体为空集，那么该实体指称项的链接结果为NIL。
 如果一个实体指称项对应排名最高的候选实体得分低于一个预先设定的阈值，那么该实体指称项的链接结果为NIL。
 给定一个实体指称项及其对应排名最高的候选实体，使用二分类器对其进行分类。如果分类结果为1，则返回候选实体作为实体链接结果。否则，该实体指称项的链接结果是NIL。
 NIL可以作为一个特殊的实体直接加入到每个实体指称项的候选实体集合中进行打分和排序。
无链接实体指称项聚类：识别出NIL实体，还需要对NIL实体进行聚类，聚类后可以采用人工标注等手段扩充知识库，从而使得知识库更加完备。
NIL问题的挑战：
 现有工作中无链接实体指称项识别和聚类算法都是启发式的，都比较简单。
 学界忽视这个问题，实体链接论文中主要部分关注于候选实体链接这一步骤，不考虑NIL问题。
 NIL问题本身就很困难，很难提出有效的特征来解决。
 NIL问题很难和候选实体链接端到端的解决。