<知识库的构建> 5-1 事实提取 Fact Extraction

引自Fabian Suchanek的讲义。

 

总结:介绍了DIPRE算法,即利用模式提取和模式应用实现事实提取来得到新fact,并不断把fact添加至KB,再得到新fact来使KB扩张,我们要清楚模式提取和模式应用的方法,及DIPRE算法可能遇到的的问题。

 

事实提取Fact Extraction :是从语料库提取事实的过程

这么做的原因:对于电脑来说文本很难懂incomprehensible,尤其是有些时候文本是由不同国家的语言写的,所以提取出来fact,有结构,变成编使电脑也懂得东西,并且更好的定义实体之间的关系。

 

模式提取Extraction Pattern:有两个占位符placeholder,有r即关系,表示的是X和Y的满足此二元关系

例如: X—bornin--> Y 的一个Pattern是 X kommt aus Y

 

如何找到patterns:手动编译语料库,手动提取,用算法做pattern推理

pattern推理Pattern Deduction:从给出的KB中找extraction pattern并把extraction pattern应用在KB中产生facts的过程

       例如:corpus Angela Merkel stammt aus Hamburg. Sie ist seit 2005 Kanzlerin von Deutschland und. 从corpus中得到:“X stammt aus Y” 是 bornIn(X,Y)的pattern,那么stammt aus(X,Y)可以作为新的relation应用KB中,继续找新的事实。

 

@font-face { font-family: "Cambria Math"; }@font-face { font-family: "DengXian"; }@font-face { font-family: "@DengXian"; }p.MsoNormal, li.MsoNormal, div.MsoNormal { margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman"; }.MsoChpDefault { font-family: DengXian; }div.WordSection1 { }

Pattern Application:通过pattern找到facts的过程

Pattern Iteration 或 DIPRE算法:执行pattern推理来找到新patterns即新的可用于corpus上的relation,以此找到新的fact,把新facts添加至KB,重复此过程扩张KB

小练习:扩张KB

KB:Obama—chase-->Osama

Corpus:Obama hetzt Osama. Tom jagt Jerry. Tom hetzt Jerry.

可得:hetzt是chase的pattern,所以hetzt的含义是chase

我们把hetzt应用在corpus中,可得Tom –hetzt--> Jerry

所以我们可以知道Tom –chase--> Jerry,把这个添加至KB中

我们看到Tom jagt Jerry,可得jagt是chase的pattern

所以最终KB为:

Obama—chase-->Osama

Tom—chase-->Jerry

 

提取pattern会遇到的问题:二义性

 

KB为Obama—chase-->Osama

Corpus为Obama verfolgt Osama.

所以此时我们无法判断到底verfolgt(X,Y)是chase(X,Y) 还是loves(X,Y)的pattern,因为奥巴马的老婆的标签也为奥巴马。

此时需要神奇的Disambiguation。

 

Pattern的可信度Confidentiality of pattern:

-      若pattern是由已知mostly known 事实提取出来的例如原KB中的东西提取出来的,则可信度高 safe

-      若是由新pattern提取出来的,则可信度低 risky

可信度 = safe的/risky的

转载于:https://www.cnblogs.com/mengzizhao/p/8379962.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值