1.前言
语义网是一张数据构成的网络,向用户提供一个查询环境,以图形的方式向用户返回经过加工和推理的知识。在语义网中,所有的信息都具有一定的结构,这些结构的语义通常使用本体来描述。本体涵盖了概念、概念的同义关系、概念之间的上下位关系、概念的属性关系(对象属性和数值属性)、属性的定义域和值域,以及这些内容上的公理、约束等。
2012年,为了提升搜索引擎返回的答案质量和用户查询的效率,Google发布了知识图谱。
2.介绍
2.1定义&组成
知识图谱是由语义网扩展延伸而来,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。
在知识图谱中,以事实为基本单位,事实可以用三元组表示,代表知识库存储的语言知识和世界知识。三元组的基本表现形式为【实体1-关系-实体2】和【实体-属性-属性值】,每个实体以全局唯一ID为标识,每个属性-属性值对可用来刻画实体的内在特性,而关系用来刻画两个实体间的外在关联。实体之间通过关系相互联结,节点代表实体,连边代表关系,它们构成网状的知识结构。其中,对具有相同特点或属性的实体集合到的抽象称为语义类(概念)。
实体、属性和关系的业务定义:两者统称为property,而如果是字符串的,那么其实是一个atrribute,用来表示某个对象或实体内在的属性;事实上北京是一个实体,这个时候“坐落于”就是连接两个实体之间的关系,叫relation,是实体外在的关联。所以是否是attribute还是relation,取决于连接的值的性质(literal or entity),同时也要根据其内在表现还是外在关联来区分。当确定是外在关联的时候,如果发现值是literal,那么其实说明需要实体化。反之亦然。实体就是做精确匹配,可以基于其关联的属性等来做进一步分析;而属性值是无法作为source关联更多node和边,但是可以使用数值计算等。(出自王昊奋)
2.2分类&存储
根据覆盖范围来分类,知识图谱又分为开放域通用知识图谱和垂直行业知识图谱。前者强调融合更多的实体,但准确性不够高,并且受到概念范围的影响,很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、关系等,一般应用于智能搜索。行业知识图谱需要依靠特定行业的数据,实体的属性与数据模式比较丰富,需要考虑到不同的业务场景和使用人员。
知识存储主要有两种:一种是基于RDF的存储,一种是基于图数据库的存储。RDF:存储三元组/标准的推理引擎/W3C标准/易于发布数据/多为学术界场景,用RDF(资源描述框架)来表示,由三元组构成,易于发布和分享数据,但不支持实体或关系拥有属性;图数据库:实体和关系可以带有属性/没有标准的推理引擎/遍历效率高/事务管理/多为工业界场景。图数据库类型:Neo4j/OrientDB/JanusGraph。RDF类型:Jena。
3.逻辑架构
知识图谱的架构包括自身的逻辑架构和构建知识图谱所采用的技术架构。逻辑架构分为模式层和数据层。
3.1模式层
模式层存储的是经过提炼的知识,采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。构建过程:从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取知识要素(