知识图谱是反映实体间、实体与属性间关系的网络,是它们基于知识的关联,是对于海量数据的一种有效的组织方式和利用手段。
现有代表性的知识网络有Wordnet、DBpedia、Freebase、NELL(Never Ending Language Learning,永不结束语言学习)、YAGO和谷歌知识图谱等。其共同点是均基于单一文本进行构建。根据知识来源与顶层概念设计理念,现有数据驱动的知识图谱构建的研究工作大致分为如下几类。
1.基于维基百科的infoboxes等结构化数据的构建:以百科作为知识的主要来源,抽取百科词条作为实体,利用词条中的infobox来填充实体的属性。主要代表有YAGO、DBpedia和Freebase等。此类构建方法的特点是质量较高,但更新较慢。
2.基于开放文档的构建(schema-less):以互联网开放网页文档作为知识的主要来源,其假定如果已知两个实体之间存在特定的语义关系,那么包含该实体对的句子在某种程度上就蕴含语义关系。主要代表系统有Reverb、OLLIE、Prismatic等。此类方法可挖掘大量实体与实体间的关系谓词,缺点是所挖掘知识的噪音大。
3.基于固定本体/模式的构建:以少量人工定义的抽象本体/模式(ontology/schema)作为知识图谱的顶层概念设计,以此来充实、汇聚符合顶层概念的实体与实体关系,并在此之上进一步发现新的概念。其代表系统有NELL、PROSPERA、斯坦福大学的DeepDive、谷歌的Knowledge Vault等。
4.基于层次化本体的构建:该方法构建的知识库的代表是Probase。Probase首先从开放域汇聚了约265万个概念;然后针对这些概念计算上下位关系;最后基于概率的方法,从横向与纵向上对这些概念进行合并,形成一个具有丰富层次的概念树。