<知识库的构建> 2-3 消歧 Disambiguaion

引自Fabian Suchanek的讲义。

 

总结:主要讲了消歧的2种方式,即停止词,上下文,大语料库和小语料库消歧的方式是不同的,文章中的实体要注意协调一致标准。

 

消歧Disambiguation:找到有二义性的单词的含义来消除歧异

 

停止词Stop word:语料库中经常出现但没有搜索价值的词

       大部分词都是停止词,除了:名词,形容词,非辅助动词

消除停止词的理由:当给出一个问题,我们根据在文章中找到问题中相同的词的个数来决定谁是答案,若有停止词,很有可能因为某篇文章停止词过多而和问题有很多重叠单词而被选为答案,所以删掉停止词是必要的。

小练习:删掉下列句子中的停止词

Don’t come here!                       come

Homer was hit by Marge.             Homer hit Marge

Homer ate a few doughnuts.       Homer ate doughnuts

 

单词的上下文Context of words:在该单词附近不是停止词的多组单词

实体的上下文Context of entities:该实体周围的实体的labels

基于上下文的消歧Context-based disambiguation:把语料库里的一个名字映射到KB中找到对应的实体entities,这些实体的上下文与原文重叠最多的即为该文章的标签

 

上面消歧的方式是针对于大一点的语料库,若语料库过小,不易找到对应实体的上下文与语料库重叠的次数,此时我们用另外一种消歧的方式:优先消歧

优先消歧Prior Disambiguation:看问题中单词与语料库中单词重叠的单词,看该单词能在维基百科上找到多少篇相关的文章,进行加权,谁得多谁就是答案

 

一致性标准Coherence Criterion:在文章中提到的实体要在KB中是相关的

转载于:https://www.cnblogs.com/mengzizhao/p/8378720.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值