二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记



实体链接:概念理解

一. 研究背景

  1. 信息过载:大数据时代,信息爆炸,直接导致信息过载;
信息过载缺点信息过载优点信息过载主要原因
1. 在找到有用的信息之前,我们需要处理更多的无用信息
2. 找到多少有用的信息取决于我们从沙子里淘金的本领
只要找,总是能够找到1. 自然语言表达的多样性
2. 自然语言表达的歧义性
  • 自然语言表达的多样性
    1 同一意义可以以多种不同表达 -->> 找全信息很难
    2 自然语言表达的弹性 -->> 科比今天发挥的不错&& 科比今天终于吃了顿饺子 这两句话其实表示同一个意思
    3 人不人之间表达的差异性和选择性
科密科黑
科比,小飞侠
黑曼巴
科神
科比, 科铁
  • 自然语言表达的歧义性
    1 同一个词语、词组、句子在丌同的上下文中有多种不同的意义
    如下,同样都是苹果,但是根据上下文可知表达的不是同一个意思:
    中关村的苹果丌错 -> 苹果电脑
    新发地的苹果丌错 -> 水果苹果

    2 找到准确的信息很难, 特别是长尾的信息
    如下示例:
    想到网上搜索张华,可以搜到很多叫张华的人,
    在这里插入图片描述
    在这里插入图片描述
    针对自然语言表达的多样性歧义性问题,实体链接提供了如下的解决方案: 通过将自然语言中的文本不知识库中的条目迚行链接
    举例如下:
    在这里插入图片描述

二. 应用场景示例

在这里插入图片描述

一. 以实体为中心的精准信息聚合
1. 跨社交网络的信息集成

将所有不特定实体相关的信息与进行链接, 如新浪微博、 Twitter、新闻、水木、等等
在这里插入图片描述

二. 构建知识库

将文本中的实体与知识库中的实体链接,并将知识库中没有的知识补全到知识库中
在这里插入图片描述

三. 关键技术

一. 引用表构建

构建引用表原因:引用表存储一个名字所有可能指向的实体, 如: 名字 -> 实体的映射关系
== 构建方法==:锚文本数据挖掘
如下:IBM分别指向三个不同的实体
在这里插入图片描述

二. 实体知识构建
1. 实体知名度

定义:表示一个实体被人们知道了解的程度, 高知名度的实体更有可能在文章中被提起
如:水果苹果比电影苹果更常被人提起在这里插入图片描述

2. 实体上下文

定义:特定实体的上下文规律性
如:苹果上下文出现iPad,酷,视网膜屏的苹果更可能是苹果公司
上下文出现好吃、甜、一斤的苹果更可能是水果苹果
在这里插入图片描述

3. 实体语义关联度

(1)定义
1)捕捉实体和实体之间的语义关系
2)相关实体更容易同时出现在一篇文章中
如:在这里插入图片描述
== 如何衡量两个实体之间的相关度==
1)在知识网络中的距离:两个实体在知识网络中的距离越小,说明相关度越大,反之,关联度越小
2)在文章中共现的次数:在文章中,两个实体共现的次数很多,说明这两个实体的相关度很大

4. 文章主题

定义 :一篇文章中的实体应弼不其主题相关
如:
苹果公司更容易出现在IT相关主题的文档中
水果苹果更容易出现在吃或农业相关的文档中
电影《苹果》 倾向于出现在娱乐相关的新闻中
在这里插入图片描述

三. 链接推理算法

定义:链接推理算法就是综合实体知识迚行决策的
过程
中关村的苹果不错 --> 水果苹果?苹果电脑?
水果苹果和苹果电脑的上下文
相关度(中关村,水果苹果) = 0.1
相关度(中关村,苹果电脑) = 0.7
说明上文中提及的苹果更有可能是苹果电脑

链接推理又分为局部推理全局推理

(一)局部推理

定义:考虑单个实体的上下文,不考虑文章中其它实体对该实体的影响
在这里插入图片描述
在这里插入图片描述

(二)全局推理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四. 总结

  1. 实体链接是一项解决自然语言歧义和多样性的有效技术,性能在一定程度上达到实用水平
  2. 加强对长尾(long tail)实体的处理
    现有的消歧系统通常只对知名实体迚行消歧
    将Web文本中实体不长尾上的实体,如sina微博、Facebook上的用户相连,可创造广阔的应用前景
  3. From Extraction to Discovery
    蝙蝠侠—三部曲之终章  这是新出来的电影,还是老电影、漫画、戒其他?
    可以不知识库构建相互补充,从而滚劢式的构建大规模知识图谱

韩先培-《实体链接:从文本到概念》

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值