实体消歧

最新推荐文章于 2023-02-15 12:35:02 发布

洛小李

最新推荐文章于 2023-02-15 12:35:02 发布

阅读量3.6k

点赞数 1

分类专栏：知识图谱实体消歧 Entity disambiguation

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34357872/article/details/89407723

版权

实体消歧是知识图谱构建中的关键步骤，旨在解决一词多义和多词一义的问题。它包括基于聚类和基于实体链接的两种主要方法。基于聚类的方法在知识库未给定时，通过特征抽取和聚类实现消歧；而基于实体链接的方法通过将实体指称与知识库中实体匹配，选择最合适的链接。实体消歧广泛应用于知识图谱构建、信息检索和问答系统等领域。

摘要由CSDN通过智能技术生成

研究背景概述
- 一般来说，由于自然语言存在较多的一词多义（相同的实体指称在不同的上下文中可以指向知识库中的不同实体）或多词一义（知识库中的同一个实体在文本中有不同的指称）的现象，实体识别的结果很难直接加入到知识图谱当中。必须要对实体识别的结果进行消歧，才能带到无歧义的实体信息。
- 应用领域
  - 知识图谱构建（实体识别）、信息检索、问答系统等
任务分类
- 一般来说，实体消歧系统可以按照目标实体（知识库）是否给定分为基于聚类的消歧系统和基于实体链接的消歧系统；也可以按照是否为结构化文本进行划分。
- 按是否给定知识库分类（非结构化文本）
  - 基于聚类的消歧系统
    - 定义：目标实体列表（知识库）未给定，以聚类的方式对实体指称进行消歧。指向同一个目标实体的指称被聚类一个簇。
    - 消歧过程
      - 对于每一个实体指称，抽取特征（上下文词、实体、概念、类别），形成特征向量
      - 计算实体指称间的相似度
      - 采用聚类算法对实体指称项聚类，使得每个簇都指向同一个目标实体
    - 按照实体指称项相似度计算方式，可以将消歧系统分为三类
      - 基于表层特征的相似度计算
        
        词袋子模型，将文本的每个术语表示向量形式，如TF-IDF等，然后使用余弦等计算相似度
        
        缺点:没有考虑上下文之间的语义关联
      - 基于扩展特征的相似度计算
        
        使用知识资源扩展实体指称项的特征表示,例如wikipedia的infobox等。这些扩展的属性信息还可以提供更准确的实体指称项信息，例如邮箱，电话等。
      - 基于社会化网络的相似度计算
        
        基于上下文中的不同实体指称构建语义关系，通常是基于图的方法，能够充分利用结构化的语义关系只是。
        
        缺点是不能充分的利用上下文中的其他信息
  - 基于实体链接的实体消歧系统
    - 通过将实体指称项与目标实体列表中对应的实体进行链接实现消歧，类似于 #跨文档共指消解
    - 又称： #record-linkage 、 #entity-disambiguation 、 #entity-Resolution
    - 实体链接的思想：选出与当前实体指称最符合的目标实体
      - $\max_{e\in KB} Score(e,s_i,d,KB,E)$
        这里d为查询文档，si为第i和实体指称，e*为目标实体，KB为给定的知识库，E(Encyclopedic)为外部知识库
      - 任务描述：将文档d中的实体指称链向知识库KB中目标实体e*，实体链接的过程，也就是获取打分的过程。为了将第计算复杂度，一般会先通过候选过滤，生成一个候选实体列表。
      - 成对（实体指称-目标实体）
        
        实体指称及其所在的上下文和所在查询文档，实体指称的内联或外联信息；目标实体的百科描述（概念、类别、词条信息），目标实体的内联和外联信息
        
        类别信息是指：通过实体上下文中出现的类别信息确定目标实体。比如苹果的上下文中如果出现公司，则极有可能指向苹果公司。
      - 全局（实体指称组（上下文）-目标实体组（关联关系））
        
        上下文实体指称间和上下文目标实体间的协同关系
      - $e=arg\max_e Score(e,m)$
        
        其中， $S c o r e$ 为打分函数，Score的计算主要围绕对实体与实体、实体与文本、文本与文本之间的相似度进行研究，上述公式就是计算与m最契合的那个目标实体
    - 消歧过程
      - 候选生成：根据规则或知识生成实体指称可能链向的目标实体列表
      - 候选排序：对目标实体列表进行排序（计算Score），确定实体指称所要链接的目标实体
    - 候选生成的方法
      - 基于别名的方法
      - 基于字符串相似度匹配
      - 网页检索、重定向
    - 候选排序
      - 根据 $S c o r e$ 的不同，可以将现有的消歧方法分为四种
      - 向量空间模型
        
        基于实体指称和目标实体的上下文特征的共现信息来确定，将其根据上下文和概念、类别等表示为向量，然后计算向量之间的相似度进行排序。
        
        特征表示：使用上下文的词、上下文的概念的实体、从知识源中获取实体指称项的额外信息等
        当前的研究重点
        
        参考文献
        Linking Documents to Encyclopedic Knowledge
        Using Encyclopedic Knowledge for Named Entity Disambiguation
        Large-scale named entity disambiguation based on Wikipedia data
        Scaling Wikipedia-based named entity disambiguation to arbitrary web text
        
        计算相似度：余弦相似度、统计学习方法分类、上下文词重合度
      - 主题一致性
        
        利用候选实体和实体指称的上下文实体计算语义关联程度，进行排序
        
        通过计算候选实体与其他实体指称的关联程度来进行排序，算法原理如下
        
        上下文实体的重要程度：衡量一个实体 $e$ 与文本中指称的上下文实体指称 $O$ 的相关性程度

最低0.47元/天解锁文章

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

洛小李 CSDN认证博客专家 CSDN认证企业博客

码龄9年

9: 原创

23万+: 周排名

228万+: 总排名

1万+: 访问

: 等级

286: 积分

241: 粉丝

10: 获赞

3: 评论

83: 收藏

私信

关注

热门文章

分类专栏

最新评论

Metamap工具安装
Lei_Leo: 请问下，下载好了metamap 和 semrep然后都在本地跑了没问题，结果登录到另外的server上，显示metamap连接不上server，您能给点建议解决这个问题么
实体消歧
春夏秋冬又一年: 感谢您的分享，我将您的博客整理到知识图谱系列经典论文解读专栏了。 https://www.webhub123.com/#/home/detail?p=1ckqQ-Rmw1
Metamap工具安装
对学习没有兴趣: 博主请问在使用javaapi时执行./testapi.sh laboratory culture结果出现error when querying prolog server:拒绝连接（connection refused）是哪里出了问题，怎么才能解决？
关系抽取综述
z5252962: https://blog.csdn.net/z5252962/article/details/102924286

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。