实体消歧

实体消歧是知识图谱构建中的关键步骤,旨在解决一词多义和多词一义的问题。它包括基于聚类和基于实体链接的两种主要方法。基于聚类的方法在知识库未给定时,通过特征抽取和聚类实现消歧;而基于实体链接的方法通过将实体指称与知识库中实体匹配,选择最合适的链接。实体消歧广泛应用于知识图谱构建、信息检索和问答系统等领域。
摘要由CSDN通过智能技术生成
  • 研究背景概述

    • 一般来说,由于自然语言存在较多的一词多义(相同的实体指称在不同的上下文中可以指向知识库中的不同实体)或多词一义(知识库中的同一个实体在文本中有不同的指称)的现象,实体识别的结果很难直接加入到知识图谱当中。必须要对实体识别的结果进行消歧,才能带到无歧义的实体信息。
    • 应用领域
      • 知识图谱构建(实体识别)、信息检索、问答系统等
  • 任务分类

    • 一般来说,实体消歧系统可以按照目标实体(知识库)是否给定分为基于聚类的消歧系统和基于实体链接的消歧系统;也可以按照是否为结构化文本进行划分。
    • 按是否给定知识库分类(非结构化文本)
      • 基于聚类的消歧系统
        • 定义:目标实体列表(知识库)未给定,以聚类的方式对实体指称进行消歧。指向同一个目标实体的指称被聚类一个簇。
        • 消歧过程
          • 对于每一个实体指称,抽取特征(上下文词、实体、概念、类别),形成特征向量
          • 计算实体指称间的相似度
          • 采用聚类算法对实体指称项聚类,使得每个簇都指向同一个目标实体
        • 按照实体指称项相似度计算方式,可以将消歧系统分为三类
          • 基于表层特征的相似度计算
            • 词袋子模型,将文本的每个术语表示向量形式,如TF-IDF等,然后使用余弦等计算相似度
            • 缺点:没有考虑上下文之间的语义关联
          • 基于扩展特征的相似度计算
            • 使用知识资源扩展实体指称项的特征表示,例如wikipedia的infobox等。这些扩展的属性信息还可以提供更准确的实体指称项信息,例如邮箱,电话等。
          • 基于社会化网络的相似度计算
            • 基于上下文中的不同实体指称构建语义关系,通常是基于图的方法,能够充分利用结构化的语义关系只是。
            • 缺点是不能充分的利用上下文中的其他信息
      • 基于实体链接的实体消歧系统
        • 通过将实体指称项与目标实体列表中对应的实体进行链接实现消歧,类似于 #跨文档共指消解
        • 又称: #record-linkage 、 #entity-disambiguation 、 #entity-Resolution
        • 实体链接的思想:选出与当前实体指称最符合的目标实体
          • e ∗ = a r g max ⁡ e ∈ K B S c o r e ( e , s i , d , K B , E ) e*=arg \max_{e\in KB} Score(e,s_i,d,KB,E) e=argmaxeKBScore(e,si,d,KB,E)
            这里d为查询文档,si为第i和实体指称,e*为目标实体,KB为给定的知识库,E(Encyclopedic)为外部知识库
          • 任务描述:将文档d中的实体指称链向知识库KB中目标实体e*,实体链接的过程,也就是获取打分的过程。为了将第计算复杂度,一般会先通过候选过滤,生成一个候选实体列表。
          • 成对(实体指称-目标实体)
            • 实体指称及其所在的上下文和所在查询文档,实体指称的内联或 外联信息;目标实体的百科描述(概念、类别、词条信息),目标实体的内联和外联信息
            • 类别信息是指:通过实体上下文中出现的类别信息确定目标实体。比如苹果的上下文中如果出现公司,则极有可能指向苹果公司。
          • 全局(实体指称组(上下文)-目标实体组(关联关系))
            • 上下文实体指称间和上下文目标实体间的协同关系
          • e = a r g max ⁡ e S c o r e ( e , m ) e=arg\max_e Score(e,m) e=argmaxeScore(e,m)
            • 其中, S c o r e Score Score为打分函数,Score的计算主要围绕对实体与实体、实体与文本、文本与文本之间的相似度进行研究,上述公式就是计算与m最契合的那个目标实体
        • 消歧过程
          • 候选生成:根据规则或知识生成实体指称可能链向的目标实体列表
          • 候选排序:对目标实体列表进行排序(计算Score),确定实体指称所要链接的目标实体
        • 候选生成的方法
          • 基于别名的方法
          • 基于字符串相似度匹配
          • 网页检索、重定向
        • 候选排序
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值