-
研究背景概述
- 一般来说,由于自然语言存在较多的一词多义(相同的实体指称在不同的上下文中可以指向知识库中的不同实体)或多词一义(知识库中的同一个实体在文本中有不同的指称)的现象,实体识别的结果很难直接加入到知识图谱当中。必须要对实体识别的结果进行消歧,才能带到无歧义的实体信息。
- 应用领域
- 知识图谱构建(实体识别)、信息检索、问答系统等
-
任务分类
- 一般来说,实体消歧系统可以按照目标实体(知识库)是否给定分为基于聚类的消歧系统和基于实体链接的消歧系统;也可以按照是否为结构化文本进行划分。
- 按是否给定知识库分类(非结构化文本)
- 基于聚类的消歧系统
- 定义:目标实体列表(知识库)未给定,以聚类的方式对实体指称进行消歧。指向同一个目标实体的指称被聚类一个簇。
- 消歧过程
- 对于每一个实体指称,抽取特征(上下文词、实体、概念、类别),形成特征向量
- 计算实体指称间的相似度
- 采用聚类算法对实体指称项聚类,使得每个簇都指向同一个目标实体
- 按照实体指称项相似度计算方式,可以将消歧系统分为三类
- 基于表层特征的相似度计算
- 词袋子模型,将文本的每个术语表示向量形式,如TF-IDF等,然后使用余弦等计算相似度
- 缺点:没有考虑上下文之间的语义关联
- 基于扩展特征的相似度计算
- 使用知识资源扩展实体指称项的特征表示,例如wikipedia的infobox等。这些扩展的属性信息还可以提供更准确的实体指称项信息,例如邮箱,电话等。
- 基于社会化网络的相似度计算
- 基于上下文中的不同实体指称构建语义关系,通常是基于图的方法,能够充分利用结构化的语义关系只是。
- 缺点是不能充分的利用上下文中的其他信息
- 基于表层特征的相似度计算
- 基于实体链接的实体消歧系统
- 通过将实体指称项与目标实体列表中对应的实体进行链接实现消歧,类似于 #跨文档共指消解
- 又称: #record-linkage 、 #entity-disambiguation 、 #entity-Resolution
- 实体链接的思想:选出与当前实体指称最符合的目标实体
- e ∗ = a r g max e ∈ K B S c o r e ( e , s i , d , K B , E ) e*=arg \max_{e\in KB} Score(e,s_i,d,KB,E) e∗=argmaxe∈KBScore(e,si,d,KB,E)
这里d为查询文档,si为第i和实体指称,e*为目标实体,KB为给定的知识库,E(Encyclopedic)为外部知识库 - 任务描述:将文档d中的实体指称链向知识库KB中目标实体e*,实体链接的过程,也就是获取打分的过程。为了将第计算复杂度,一般会先通过候选过滤,生成一个候选实体列表。
- 成对(实体指称-目标实体)
- 实体指称及其所在的上下文和所在查询文档,实体指称的内联或 外联信息;目标实体的百科描述(概念、类别、词条信息),目标实体的内联和外联信息
- 类别信息是指:通过实体上下文中出现的类别信息确定目标实体。比如苹果的上下文中如果出现公司,则极有可能指向苹果公司。
- 全局(实体指称组(上下文)-目标实体组(关联关系))
- 上下文实体指称间和上下文目标实体间的协同关系
- e = a r g max e S c o r e ( e , m ) e=arg\max_e Score(e,m) e=argmaxeScore(e,m)
- 其中, S c o r e Score Score为打分函数,Score的计算主要围绕对实体与实体、实体与文本、文本与文本之间的相似度进行研究,上述公式就是计算与m最契合的那个目标实体
- e ∗ = a r g max e ∈ K B S c o r e ( e , s i , d , K B , E ) e*=arg \max_{e\in KB} Score(e,s_i,d,KB,E) e∗=argmaxe∈KBScore(e,si,d,KB,E)
- 消歧过程
- 候选生成:根据规则或知识生成实体指称可能链向的目标实体列表
- 候选排序:对目标实体列表进行排序(计算Score),确定实体指称所要链接的目标实体
- 候选生成的方法
- 基于别名的方法
- 基于字符串相似度匹配
- 网页检索、重定向
- 候选排序
-
根据 S c o r e Score Score的不同,可以将现有的消歧方法分为四种
-
向量空间模型
-
基于实体指称和目标实体的上下文特征的共现信息来确定,将其根据上下文和概念、类别等表示为向量,然后计算向量之间的相似度进行排序。
-
特征表示:使用上下文的词、上下文的概念的实体、从知识源中获取实体指称项的额外信息等
当前的研究重点 -
计算相似度:余弦相似度、统计学习方法分类、上下文词重合度
-
-
主题一致性
- 利用候选实体和实体指称的上下文实体计算语义关联程度,进行排序
- 通过计算候选实体与其他实体指称的关联程度来进行排序,算法原理如下
- 上下文实体的重要程度:衡量一个实体 e e e与文本中指称的上下文实体指称 O O O的相关性程度
- 上下文实体的重要程度:衡量一个实体 e e e与文本中指称的上下文实体指称 O O O的相关性程度
-
- 基于聚类的消歧系统
实体消歧
最新推荐文章于 2023-02-15 12:35:02 发布
实体消歧是知识图谱构建中的关键步骤,旨在解决一词多义和多词一义的问题。它包括基于聚类和基于实体链接的两种主要方法。基于聚类的方法在知识库未给定时,通过特征抽取和聚类实现消歧;而基于实体链接的方法通过将实体指称与知识库中实体匹配,选择最合适的链接。实体消歧广泛应用于知识图谱构建、信息检索和问答系统等领域。
摘要由CSDN通过智能技术生成