YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia

本文介绍YAGO,一种结合Wikipedia与WordNet构建的知识库模型,详细讲解了其数据模型、知识抽取过程及如何处理实体、概念、关系等元素,实现从Wikipedia大量实例中提取知识并构建清晰的概念层次。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

梗概:

       Wikipedia中有大量的individuals,我们希望可以利用这些大量的实例,同时我们希望在一个知识库中concept可以按分类层次进行排列,但是Wikipedia的分类方式主要是基于主题,并不清晰,所以,我们需要将Wikipedia的实体与WordNet相结合。

       在提取Wikipedia中的fact时,需要利用fact的category pages,并不访问page本身。这个category可以给我们很多信息,包括entity,relation,concept等

       WordNet是以同义词集合(synset)作为基本单位进行组织,每个synset代表一种语义(concept)。WordNet中有verbs,adjectives等,我们只考虑nouns,synset之间存在语义关系(如:hypernyms/hyponyms 上下位关系),但缺点是实体太少,语义关系太少,尤其是不同词汇之间不存在语义关系(如 医生与医院)

 

数据模型:

       YAGO:RDFS的延伸

       1、所有对象都表示为实体

       2、数字,日期,字符串等也可表示为实体

       3、单词也是实体,这使得每个单词可以表示为具体的实体

       4、class也是实体,class以taxonomic hierarchy进行组织,类之间的关系为subClassOf

       5、关系也是实体,所以我们可以表示关系的属性

Fact=(entity1,relation,entity2)

              其中:entity1,entity2被称为argument

       每个fact可以表示为一个identifier

     6、identifier也是一个实体,这就允许我们可以表示一个fact与URL的资源链接关系(FoundIn realtion)

       7、既不是fact也不是relation的entity被称为common entity,common entity中不是class的被称为individual,也就是单纯的实例

       综上,YAGO可被表示为:

             

       表示一个fact:I,C,R

       fact与fact又会生出新的fact,而I可以一一映射每个fact

      

       注:一些fact需要多个argument,解决方法有:

              1、引入n-ary-relations

              2、为每个argument引入一个二元关系,但拓展性不好

       因此YAGO采用primary pair of its arguments 和 the other argument 相结合的方式

Knowledge Extraction(知识抽取):

       每个Wikipedia page都是YAGO中的individual,我们提取之后,需要对这些实体的class也就是Wikipedia中的cateegory进行判断,对于Wikipedia page来说,有很多category,只有conceptual category才是真正的class。

       我们的工作主要是区别conceptual category和thematic vicinity 区别的主要依据head of the categoty name is a plural word

       到这里我们在individual 和 class中建立了对应的type relation,但从前面的分析来看,class也可看作entity,也就是说class中也有层次关系。

       在Wikipedia中,category是一个有向无环图,主要是以thematic structure进行组织,这是不可取的,因此我们需要以WordNet为标准重新组织,只取leaf category而忽略其他category

      

       Establishing subClassOf

       我们需要将Wikipedia中的层次较低的class与WordNet中层次较高的class建立subClassOf联系,这也是Wikipedia与WordNet建立链接的关键。

       建立方法:

       以文中的American people in Japan为例:

       Pre-modifier:American

       Head:people

       Post-modifier:in Japan

      

       People->person 判断WordNet中是否存在American person 没有的话,说明为exclusively endocentric compound words 因此直接映射person,但是需要消岐,我们映射到频率最高的那个synset

 

       The means relation

       构建means relation的三个方法:

       1、单词与synset建立关系

       2、别名与重定向网站

       3、givenameof与familynameof 是means的subrealtions

      

       其他:

       利用category信息 如:BornInYear DiedInYear等

      

       过滤操作:

       所有的arguments必须是存在于Wikipedia的page,也就是在Type relation中建立的,其余的需要被筛选(因为WordNet中也存在做这种individual)

       Meta-relation的建立:

       Describes relation:

       Arguments:individual ,URL(便于访问资源)

      

       Extended new facts:

       Witness page

       FoundIn relation:fact URL建立联系

       ExtractedBy relation:分辨提取技术

      

       Context relation:用于处理individuals间的语义信息

 

YAGO的拓展:

       Fact(x,r,y)

       1、map x,y to existing entities

              需要解决歧义问题(实体链接问题):可以利用YAGO的existing entities的相关信息,如:relations to other entities,the word uesd to

Refer to the entities,the context of the entities

       2、map relation 提前固定好的relation 比较简单

       3、如果已存在,则需要add a new witness for the fact

       4、如果不存在,则需要add the fact together with a new fact identifier

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值