知识图谱综述-CSDN博客

分类：就覆盖范围而言，知识图谱也可分为通用知识图谱和行业知识图谱。通用知识图谱注重广度，强调融合更多的实体，较行业知识图谱而言，其准确度不够高，并且受概念范围的影响，很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。通用知识图谱主要应用于智能搜索等领域。行业知识图谱通常需要依靠特定行业的数据来构建，具有特定的行业意义。行业知识图谱中，实体的属性与数据模式往往比较丰富。

1.2 知识图谱的架构

知识图谱的架构主要包括自身的逻辑结构以及体系架构。

逻辑结构：知识图谱在逻辑上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用(实体1，关系，实体2)、(实体、属性，属性值)这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源Neo4j、Twitter的FlockDB、sones的GraphDB等。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

体系架构：知识图谱的体系架构是其指构建模式结构，如图1所示。

构建方式：知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式，再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库，例如Freebase项目就是采用这种方式，它的绝大部分数据是从维基百科中得到的。自底向上指的是从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式。目前，大多数知识图谱都采用自底向上的方式进行构建，其中最典型就是Google的Knowledge Vault。

2 大规模知识库

2.1 开放链接知识图谱

在LOD(linked open data)项目的云图中，Freebase、Wikidata、DBpedia、YAGO这4个大规模知识库处于绝对核心的地位，它们中不仅包含大量的半结构化、非结构化数据，是知识图谱数据的重要来源。而且具有较高的领域覆盖面，与领域知识库存在大量的链接关系。

1) Freebase
Freebase知识库早期由Metaweb公司创建，后来被Google收购，成为Google知识图谱的重要组成部分。Freebase中的数据主要是由人工构建，另外一部分数据则主要来源于维基百科、IMDB、Flickr等网站或语料库。截止到2014年年底，Freebase已经包
含了6 800万个实体，10亿条关系信息，超过24亿条事实三元组信息，在2015年6月，Freebase整体移入至WikiData。

2) Wikidata
Wikidata是维基媒体基金会主持的一个自由的协作式多语言辅助知识库，旨在为维基百科、维基共享资源以及其他的维基媒体项目提供支持。它是Wikipedia、Wikivoyage、Wikisource中结构化数据的中央存储器，并支持免费使用。Wikidata中的数据主要以文档的形式进行存储，目前已包含了超过1700万个文档。其中的每个文档都有一个主题或一个管理页面，且被唯一的数字标识。

3) DBpedia
DBpedia是由德国莱比锡大学和曼海姆大学的科研人员创建的多语言综合型知识库，在LOD项目中处于最核心的地位。DBpedia是从多种语言的维基百科中抽取结构化信息，并且将其以关联数据的形式发布到互联网上，提供给在线网络应用、社交网站以及其他在线知识库。由于DBpedia的直接数据来源覆盖范围广阔，所以它包含了众多领域的实体信息。截止至2014年年底，DBpedia中的事实三元组数量已经超过了30亿条。除上述优点外，DBpedia还能够自动与维基百科保持同步，覆盖多种语言。

4) YAGO
YAGO是由德国马普所(max planck institute，MPI)的科研人员构建的综合型知识库。YAGO整合了维基百科、WordNet以及GeoNames等数据源，特别是将维基百科中的分类体系与WordNet的分类体系进行了融合，构建了一个复杂的类别层次结构体系。第一个版本包含了超过100万的实体以及超过500万的事实。2012年，发布了它的第二个版本，在YAGO的基础上进行了大规模的扩展，引入了一个新的数据源GeoNames，被称为YAG02s。包