梗概:
Wikipedia中有大量的individuals,我们希望可以利用这些大量的实例,同时我们希望在一个知识库中concept可以按分类层次进行排列,但是Wikipedia的分类方式主要是基于主题,并不清晰,所以,我们需要将Wikipedia的实体与WordNet相结合。
在提取Wikipedia中的fact时,需要利用fact的category pages,并不访问page本身。这个category可以给我们很多信息,包括entity,relation,concept等
WordNet是以同义词集合(synset)作为基本单位进行组织,每个synset代表一种语义(concept)。WordNet中有verbs,adjectives等,我们只考虑nouns,synset之间存在语义关系(如:hypernyms/hyponyms 上下位关系),但缺点是实体太少,语义关系太少,尤其是不同词汇之间不存在语义关系(如 医生与医院)
数据模型:
YAGO:RDFS的延伸
1、所有对象都表示为实体
2、数字,日期,字符串等也可表示为实体
3、单词也是实体,这使得每个单词可以表示为具体的实体
4、class也是实体,class以taxonomic hierarchy进行组织,类之间的关系为subClassOf
5、关系也是实体,所以我们可以表示关系的属性
Fact=(entity1,relation,entity2)
其中:entity1,entity2被称为argument
每个fact可以表示为一个identifier
6、identifier也是一个实体,这就允许我们可以表示一个fact与URL的资源链接关系(FoundIn realtion)
7、既不是fact也不是relation的entity被称为common entity,common entity中不是class的被称为individual,也就是单纯的实例
综上,YAGO可被表示为:
表示一个fact:I,C,R
fact与fact又会生出新的fact,而I可以一一映射每个fact
注:一些fact需要多个argument,解决方法有:
1、引入n-ary-relations
2、为每个argument引入一个二元关系,但拓展性不好?
因此YAGO采用primary pair of its arguments 和 the other argument 相结合的方式
Knowledge Extraction(知识抽取):
每个Wikipedia page都是YAGO中的individual,我们提取之后,需要对这些实体的class也就是Wikipedia中的cateegory进行判断,对于Wikipedia page来说,有很多category,只有conceptual category才是真正的class。
我们的工作主要是区别conceptual category和thematic vicinity 区别的主要依据head of the categoty name is a plural word
到这里我们在individual 和 class中建立了对应的type relation,但从前面的分析来看,class也可看作entity,也就是说class中也有层次关系。
在Wikipedia中,category是一个有向无环图,主要是以thematic structure进行组织,这是不可取的,因此我们需要以WordNet为标准重新组织,只取leaf category而忽略其他category
Establishing subClassOf
我们需要将Wikipedia中的层次较低的class与WordNet中层次较高的class建立subClassOf联系,这也是Wikipedia与WordNet建立链接的关键。
建立方法:
以文中的American people in Japan为例:
Pre-modifier:American
Head:people
Post-modifier:in Japan
People->person 判断WordNet中是否存在American person 没有的话,说明为exclusively endocentric compound words 因此直接映射person,但是需要消岐,我们映射到频率最高的那个synset?
The means relation:
构建means relation的三个方法:
1、单词与synset建立关系
2、别名与重定向网站
3、givenameof与familynameof 是means的subrealtions
其他:
利用category信息 如:BornInYear DiedInYear等
过滤操作:
所有的arguments必须是存在于Wikipedia的page,也就是在Type relation中建立的,其余的需要被筛选(因为WordNet中也存在做这种individual)
Meta-relation的建立:
Describes relation:
Arguments:individual ,URL(便于访问资源)
Extended new facts:
Witness page
FoundIn relation:fact URL建立联系
ExtractedBy relation:分辨提取技术
Context relation:用于处理individuals间的语义信息
YAGO的拓展:
Fact(x,r,y)
1、map x,y to existing entities
需要解决歧义问题(实体链接问题):可以利用YAGO的existing entities的相关信息,如:relations to other entities,the word uesd to
Refer to the entities,the context of the entities
2、map relation 提前固定好的relation 比较简单
3、如果已存在,则需要add a new witness for the fact
4、如果不存在,则需要add the fact together with a new fact identifier