知识图谱构建方法与样例

前言

        知识图谱作为一项新兴技术,在互联网的语义搜索、智能问答及推荐等场景得到广泛的应用,已经成为互联网企业智能应用的基本模块。公司在数字化转型的过程中,越来越多的部门利用知识图谱技术来提高知识管理、搜索与问答系统的使用效果。一方面,不同于成熟的IT产品,知识图谱还处于发展创新阶段,新的算法、新的工具不断的涌现。另一方面,现有的算法、工具很多都是源于互联网,适合互联网企业的大规模的信息抽取方式,对传统企业不是完全适合。 同时,传统企业在其发展过程中,形成了自己的企业文化,积累了大量的体系化的企业经营、运作、管理等方面的信息及数据资产。 针对这种现象,特编写此指导书,一方面介绍知识图谱的基本知识及构建方法。另一方面特别强调了企业知识图谱的特点,为大家在构建图谱的过程中起到抛砖引玉的作用。

第一章 知识图谱的背景和应用

1.1 知识图谱的背景

       “知识图谱”的概念由Google公司在2012年提出,用于以语义检索的方式,提高搜索引擎在对多种数据源进行搜索时的质量,后被泛化为以图或网结构表现的知识库。知识图谱的发展融合了传统知识库及现代信息抽取技术,与很多领域的发展密切相关,涉及语言学、语义网、专家系统、本体、数据库、机器学习、人工智能等,是人类知识,信息检索与抽取,以及数据汇聚的产物。

      知识图谱本质上是一种语义网络(Semantic Network)。语义网络是19世纪50年代末60年代初提出,可以看成是一种用于存储知识的数据结构,即基于图的数据结构。在语义网络中信息用结点表示,信息间的关系用有向直线相连。 使用语义网络,可以很方便地将自然语言的句子用图来表达和存储,用于机器翻译、问答系统和自然语言理解。进入20世纪,互联网之父 Tim Berners Lee提出了语义网(Semantic Web) 的概念,其目的是希望把传统基于超文本链接的网络信息转化为基于实体链接的语义网。但语义网络与语义网都是基于人类的知识“自顶向下”设计知识体系,如Cyc,WordNet等高质量知识库,这种设计方式耗时长,需要大量人力完成,导致其落地困难。随着互连网数据的快速增长, 链接数据(Linked Data)应运而生,互联网上的任何一个资源都用一个 HTTP URI(Uniform Resource Identifiers)来标识,其宗旨是希望建立起资源之间的链接,从而形成一张巨大的资源链接网。链接数据项目汇集了很多大型知识库,比如说Freebase、wikipedia,这些大型知识库的发布,为知识图谱的构建提供了信息来源。Google知识图谱就是在Freebase的基础上开发和设计的。不同于自上向下的语义网络与语义网的构建模式, Google 的知识图谱采用自下向上,从大规模知识库中通过信息处理技术,抽取实体、属性及实体间相互关系,并归纳出其知识体系,形成知识图谱。从这个角度看,知识图谱是多源异质信息处理的一个结果,图谱的质量依赖于其基础信息的质量。

1.2 知识图谱的应用

        知识图谱自提出以来,在学术界和工业界得到了普及,并在智能语义搜索、深度问答、智能推荐、决策分析等方面有着广泛的应用。

(1)智能语义搜索

          智能语义搜索是知识图谱一个重要的应用领域,当用户发起查询时,搜索引擎会借助知识图谱的帮助对关键词进行解析和推理,进而将其映射到知识图谱中的一个或一组概念或实体之上,然后根据知识图谱的概念层次结构,向用户返回图形化的知识结构。知识图谱在搜索引擎中已经有了较为成熟的应用,如谷歌的知识图谱、百度知心和搜狗知立方。有了知识图谱作为辅助,搜索引擎不仅返回链接,还返回更为精准、结构化的信息,可以更大可能地满足用户的查询需求。比如用户输入关键词“罗纳尔多”,Google搜索引擎除了提供相关的网页,还会在右侧返回一个“知识卡片”(如下图),包含“罗纳尔多”的各种属性信息,包括出生日期、国籍、婚姻状况、子女信息等。

语音搜索示例

(2) 自动问答

      问答系统能够以直接而准确的方式回答用户自然语言的提问,是信息检索领域的重要应用。在自动问答应用中,系统会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。苹果手机里的Siri、Google Now、百度的度秘都是自动问答的实际应用,比如在度秘里输入“梁启超儿子的妻子”这个问题,系统会先从知识库中获取梁启超的儿子是梁思成,然后再获取梁思成的两任妻子,分别是林徽因和林洙(如下图)。

自动问答示例

(3) 智能推荐

知识图谱包含了实体之间丰富的语义关联,为推荐系统提供了潜在的辅助信息来源。利用知识图谱,能够精准感知任务与场景,更好、更深入地理解用户的需求,实现从基于行为的推荐到行为与语义融合的智能推荐。比如说一个用户喜欢看《霸王别姬》这部电影,根据知识图谱中《霸王别姬》和其他实体之间的语义联系(见下图),可以向用户推荐同主演的《阿飞正传》、同题材的《末代皇帝》或同导演的《搜索》。

智能推荐示例

(4)决策分析

通过构建知识图谱,能够消除“信息孤岛”,实现本领域与跨领域之间信息资源高效联接,也能够支持隐式关系发现和深层关系推理,从而为各类应用场景提供决策支持。美国大数据公司Palantir通过知识图谱,将挖掘到的纷乱数据进行了关联,然后标记出可疑活动,最终帮助政府成功定位到了坏人的藏身之处。

第二章 知识图谱的概念和分类

2.1 知识图谱的概念

       如上一章所述,知识图谱是用图的结构描述的真实世界中存在的各种实体或概念及其关系。节点表示实体或概念,边则由属性或关系构成。实体指的是具有可区别性且独立存在的某种事物,如某一个人、某一个城市、某一种植物等、某一种商品等,是知识图谱中的最基本元素。概念是对特征的独特组合而形成的知识单元主要指集合、类别、对象类型、事物的种类,例如人物、地理等。属性主要指描述实体或概念的特征或特性,例如人物的国籍、生日等。在下图所示的知识图谱例子所示,“中国”和“日本”是两个实体,“二战侵略”是两个实体间的关系,“人口”是属性,“13.83亿”是(实体)“中国”的属性“人口”的属性值。“国家”是一个概念,包含了“中国”和“日本”两个实体。

知识图谱示例

知识图谱从逻辑上一般分为概念层(也叫模式层)与实体层(也叫数据层),如下图所示。概念层是从本体发展来的,但不是严格意义上的本体。本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明,是概念的集合,本体包含各种类、类的定义以及归类关系、公理等所构成层次结构。本体反映的是常识或相对恒定的知识,一般是专家手工自上向下编制的,如传统专家系统的知识库wordnet、hownet 还有 cyc, 都属于严格意义上的本体。知识图谱强调规模,其对知识的表示也从传统专家系统的知识库强逻辑表达转化为弱语义表达,从强概念转化为强实体,从强推理转化为综合搜索、问答及推理,从强知识获取(Knowledge Acquisition) 到强信息抽取(Information Extraction)。因此,在知识图谱中的概念层,对概念的逻辑的定义相对宽松。很多情况下,概念是从底层数据中抽取、总结出来的。信息抽取构建的概念图谱,如ConceptNet中概念的关系更强调语义而非逻辑。 实体层是知识图谱有别于传统专家系统知识库的主要部分,实体层构建的是每个实体间的关系、实体、关系的识别都是从语料库里自底向上来构建。目前的知识图谱大多是轻概念层,重实体层。有些情况下,纯概念图谱也被称为知识图谱。

知识图谱的模式图和数据图

2.2 知识图谱的分类

知识图谱就覆盖的信息范围而言,可以分为通用知识图谱(也称开放域知识图谱),行业知识图谱(也称特殊领域或垂直域知识图谱)与企业知识图谱。目前,很多分类把企业图谱归入行业图谱。由于企业图谱的复杂性、多样性,我们把企业图谱从行业图谱中区分出来。

2.2.1开放知识图谱

开放域知识图谱依托海量的互联网数据,通过信息抽取的方法逐步丰富及完善百科类信息的链接。开放域知识图谱对人类日常会话中的语义理解意义重大,是构建企业知识图谱的不可缺的部分。目前不同的研究机构及搜索引擎公司维护和发布了不同特点的大规模开放知识图谱,为其他类知识图谱的构建提供了便利。下面就几个有代表性的开放知识图谱进行介绍,在构建企业知识图谱时,可依据需要选择不同的开放域图谱作为辅助。

2.2.1.1 英文开放知识图谱

英文的几个大规模开放知识图谱包括但不仅限于DBPedia[1]、NELL[2]、Yago[3]、Microsoft ConceptGraph[4]。

(1)DBpedia

Dbpedia是一个大规模的多语言百科知识图谱,可认为是维基百科的结构化版本。DBpedia使用固定的模式对维基百科中的实体信息进行抽取,包括abstract、infobox、category和page link等信息。DBpedia目前拥有127种语言的超过2800万个实体与数亿个RDF三元组,并且作为链接数据的核心,与许多其他数据集均存在实体映射关系。根据抽样评测,DBpedia中RDF三元组的正确率达88%。DBpedia支持数据集的完全下载。

(2)NELL

NELL (Never-Ending Language Learner) 是由卡耐基梅隆的研究项目,主旨在通过机器学习,构建一个永不停歇的学习机器。在初始时,只需要提供给这个机器一个包含几百个类及关系的简单的模式层,及每个类下10-15个种子案例,NELL会自动从500百万网站中抽取实体及关系补充到其知识库中,并通过新获得的信息调整其学习模型。 NELL从2010年1月开始抽取信息,目前已有超过1000种类及关系,近3百万的高质量实体。

(3)Yago

Yago是一个整合了维基百科与WordNet的大规模本体。目前,Yago拥有10种语言,约459万个实体,2400万个Facts,Yago中Facts的正确率约为95%。Yago支持数据集的完全下载。

(4)Microsoft ConceptGraph

Microsoft ConceptGraph是以概念层次体系为中心的知识图谱,以概念定义和概念之间的IsA关系为主。给定一个实体如“Microsoft”,ConceptGraph返回一组与“微软”有IsA关系的概念组,如:“Company”,“Software Company”,“Largest OS Vender”等。Concept Graph可以用于短文本理解和语义消歧中。例如,给定一个短文本“the engineer is eating the apple”,可以利用ConceptGraph来正确理解其中“apple”的含义是“吃的苹果”还是“苹果公司”。目前,Microsoft Concept Graph拥有超过540万的概念、1255万的实体、8760万的关系。ConceptGraph主要通过从互联网和网络日志中挖掘信息来构建,目前支持HTTP API调用,而数据集的完全下载需要经过非商用的认证后才能完成。

2.2.1.2中文开放知识图谱

近些年,国内推出了大量以中文为主语言的知识图谱,它们主要是基于百度百科和维基百科的结构化信息构建起来的,如CN-Dbpedia[1]、http://Zhishi.me[2]、http://OpenKG.CN[3]等,下文将详细介绍这几个中文知识图谱。

(1)CN-DBpedia

CN-Dbpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科。CN-DBpedia主要从中文百科类网站(如百度百科、互动百科、中文维基百科等)的纯文本页面中提取信息,经过滤、融合、推断等操作后,最终形成高质量的结构化数据。目前,CN-DBpedia已经成为最大的中文开放通用百科知识图谱之一,涵盖数千万实体和数亿的关系,API累计调用量已经超过了3.5亿次。

(2) http://Zhishi.me

http://Zhishi.me是中文常识知识图谱,主要通过从开放的百科数据中抽取结构化数据,已融合了百度百科、互动百科以及维基百科中的中文数据。目前http://Zhishi.me中拥有约1000万个实体与一亿两千万个RDF三元组。

(3)http://OpenKG.CN

http://OpenKG.CN是一个大型的中文开放知识图谱,包含了国内最著名知识图谱资源的加入,如http://Zhishi.me、CN-DBPedia等,并已经囊括了常识、医疗、金融、城市等15个类目的开放知识图谱。

2.2.2垂直域知识图谱

在对通用性知识构建的开放域知识图谱之外,垂直领域的行业知识图谱也有广泛的发展,例如在医疗方面围绕疾病的诊断及医治构建的图谱,如下图所示;金融领域围绕上市公司构建的知识图谱等, 如图所示。不同于通用知识领域以知识广度为衡量指标的开放知识图谱,垂直域知识图谱更强调专业性,构建图谱所需的信息资源,在通用百科知识之外,还需要全面的行业信息,而不只是某个企业或组织自己的信息。例如医学知识图谱的构建需要依据尽量全面的医学信息,其构建过程是行业术语附加数据驱动的方法。目前与企业相关的图谱均被称为企业知识图谱,归入行业图谱。如图所示的金融领域为控制企业贷款风险而建的企业关系的图谱。由于企业图谱应用场景复杂,所用信息不同,我们把企业图谱划分为三类,从行业图谱中分离出来,在下一节详细介绍。

医学知识图谱示例

企业关系图谱示例

2.2.3 企业知识图谱

企业知识图谱随着工业4.0、企业数字化转型带来越来越多的应用。目前企业知识图谱多被划分为垂直域知识图谱,但企业的业务场景复杂,涉及的信息范围不一,知识图谱的应用也多种多样。根据信息涵盖的范围,企业知识图谱又可分为三种:特殊场景的企业知识图谱、特定业务领域的企业知识图谱以及全领域/跨领域的企业知识图谱。

特殊场景的企业知识图谱:这一类图谱的信息范围涉及企业内某一具体业务场景,例如:根据邮件、项目或社区信息而建的企业内社交图谱,矿井钻探知识图谱(如下图),财经根据AP报销问题构建的AP热线问答知识图谱、财经报表的智能取数图谱等。

勘探钻井问题解析

特定业务领域的企业知识图谱:构建这一类图谱所需的信息范围是企业内的某一特定业务领域,比如互连网的产品图谱(Amazon,阿里等),涉及产品信息、买卖双方信息以及产品使用(买卖)经验。CBG的产品图谱与之类似。另财经会计政策图谱,会计政策的内容涵盖了公司整个财经业务的定义、规范、工作方法等用以指导财经的整个业务。企业的这类图谱跟垂直领域知识图谱(Specific Domain KG) 的不同之处在于其企业特色。不论Amazon、阿里还是华为都有自定义的产品树,再例如公司的财经业务范围,定义以及操作与会计行业的定义有共同之处,但也有不同之处,带有企业自身的特色。

阿里电商图谱Schema

全领域/跨领域的企业知识图谱:这类图谱涉及企业运作所需要的跨不同业务域及开放域的信息,例如某公司的知识管理图谱,XX社区涉及公司业务的多个方面,分类树、模式层的构建对知识的共享、复用非常重要。这类图谱的建设用于企业内部管理,构建图谱涉及的信息范围最为复杂,是百科类通用信息、企业信息、企业所在行业信息、企业各业务部门所属专业信息的融合。目前业界还没有实践案例。

下表综合了从不同视角对开放域,垂直域及企业三大类图谱的比较。

三大类图谱的比较

第三章 知识图谱的基本组件

3.1 知识图谱的架构

知识图谱的体系架构一般包括知识建模、知识获取、知识融合、知识存储、知识计算和知识消费六个部分。虽然六个模块都冠以“知识”二字,但其构建过程实质是“数据”、“信息”处理的过程,本文仍采用这些术语以保持一致性。 以下对几个模块进行详细描述。

3.2 知识建模

知识建模即建立知识图谱的数据模式。 在讨论图谱的数据模式之前,先讨论一下图谱的表示

3.2.1知识图谱的表示

知识表示是将现实世界中的各类知识表达成计算机可存储和计算的结构。人工智能的一个核心也是研究怎样用计算机表达人类知识。在人工智能领域,知识表示是基于逻辑的一套完整而严密的定义。现在的知识图谱是建立在大量信息基础上的,在其知识表示上不同于传统的逻辑表示,此文中涉及的知识表示,如不做特别声明都是指知识图谱对信息的表示。知识图谱中的信息表示分为符号逻辑与向量表示法,符号逻辑主要是以RDF(Resource Deion Framework资源描述框架)为代表的三元组的(Subject, Predicate, Object)结构。三元组SPO的表示法,是源于一阶谓词逻辑,用作为动词词组的谓词,来表达两个实体/概念(主语Subject与宾语Object)之间的关系,或者是实体/概念(主语)的属性(Property)。

RDF提供了描述客观世界事实的基本框架,但缺少类、属性等, RDFS是RDF之上的Schema层,用七个术语 Class、 subClassOf、type、Property、subPropertyOf, Domain、Range构建客观事物的层次体系和属性。OWL(Ontology Web Language)丰富扩展了RDFS 的类和属性的约束能力,可以构建更为复杂而完备的本体。

随着自然语言处理领域词向量等嵌入(Embedding)技术的出现,人们也尝试着把实体和关系投射到一个低维的连续向量空间,用向量表示每一个实体和关系。这种向量表示法有利于计算,通过数值运算更有效的发现实体间隐性知识及潜在假设,发现新实体和新关系,并对大体量的信息融合具有重要意义。向量类的知识表示法又分为翻译模型,组合模型以及神经网络模型. 近几年这类模型发展迅速, 新的算法不断涌现, 下表列出几种向量类知识表示所用到的模型。

向量类知识表示方法汇总

逻辑符号表示法因其易懂易解释,并易于融合经验、表示能力强、能处理较为复杂的知识结构,是目前的主流知识表示方法,本文也以符号逻辑的知识表示法讲解知识图谱的构建。嵌入式的表示法在信息量大的情况下,作为自然语言(NLP)的处理技术,在图谱构建中起到不可忽视的作用,但其可解释性、可推理性、及对复杂知识结构的支持都比较差。在图谱的构建中,符号表示与向量表示交替使用。

3.2.2知识建模

知识建模是建立知识图谱的概念模式层,具有良好的概念定义、分类层次以及关系种类定义,可以减少数据的冗余,提高应用效率,利于数据与信息的融合。知识建模通常采用自顶向下(Top-Down)与自底向上(Bottom-Up)两种方法,自顶向下根据已有知识分层进行概念设计,然后再建立实体与概念的链接。自底向上是从实体层总结归纳出底层概念,再逐步往上抽象,形成上层概念。不论哪种模式,建模时需要考虑的几个关键问题是:

1)概念划分的合理性,同一层级概念间的重合性;

2)属性的定义方式,如何在冗余程度最低的条件下满足应用和可视化展现;

3)关系种类的定义;

4)事件、时序等复杂知识表示;

5)后续的知识扩展难度,能否支持概念体系的变更以及属性的调整。上图中的模式层,定义了人物、公司、上市公司、专利、投资事件几个概念及各自属性与关系。

3.3 知识抽取(信息抽取)

知识图谱与传统的知识库的不同点除了知识体系的逻辑严谨性之外,还在于其知识的获得及处理技术。知识图谱偏重于大量数据的信息抽取(Information Retrieval)。利用信息抽取技术从半结构化或结构化的数据源中提取出实体、属性以及实体间的相互关系,并在此基础上形成图谱的表达方式。涉及的关键技术包括:实体抽取、关系抽取和属性抽取。

知识抽取示例

3.3.1 实体抽取

实体抽取包括抽取文中的原子信息元素,开放域的实体包括人名、组织/机构名、地理位置、时间/日期、字符值、金额值等。

实体示例

3.3.2 关系抽取

关系抽取是从文本中抽取出两个或多个实体/概念之间的语义关系。关系抽取作为信息抽取中的重要环节,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。

关系示例

3.3.3 属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。

属性抽取主要的研究思路有以下几种:

(1)将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务。

(2)基于规则和启发式算法,抽取结构化数据。

(3)基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。

(4)采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。

属性抽取示例

3.4 知识融合

知识融合是使来自不同信息源的信息在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。知识融合包括实体联接(Record Linkage or Entity Resolution)和知识合并(Schema Mapping)

知识融合示例

3.4.1 实体联接

实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。

实体链接的一般流程是:

1)从文本中通过实体抽取得到实体指称项。

2)进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义,以及知识库中是否存在其他命名实体与之表示相同的含义。

3)在确认知识库中对应正确实体对象之后,将该实体指称链接到知识库中对应实体。

实体消歧是专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确建立实体链接,实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题,类似于词性消歧和词义消歧。

实体消歧示例

共指消解也称为对象对齐、实体匹配和实体同义,其技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的公司进行研究。

3.4.2 知识合并

在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。常见的知识合并有两个,一个是合并知识库,另一个是合并关系数据库。将外部知识库融合到本地知识库需要处理两个层面的问题:

· 数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实体以及关系的冲突问题,造成不必要的冗余。

1)实体合并:在构建行业知识图谱时,实体优先从结构化的数据中获取;对于结构化的数据,通常有对实体进行唯一标识的主键,因此在进行知识抽取时即可设定实体合并的依据。对于非结构化数据中抽取的实体,同样使用设置合并条件的规则来完成实体的合并。例如企业合并可以通过企业名称直接合并。

2)实体属性与关系的合并:对于具有时态特征的属性,使用新的数据覆盖老的数据;对于选取可靠性高、质量好的数据源进行合并。

· 模式层的融合,将不同的模式图相互融合的过程。行业知识图谱的数据模式层通常是由专家人工构建或从可靠的结构化数据中映射得到的,通常在映射时会通过设置融合的规则来确保数据的统一。

知识合并示例

合并关系数据库,在知识图谱构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。业界和学术界将这一数据转换过程形象地称为RDB2RDF,其实质就是将关系数据库的数据换成RDF的三元组数据。

3.5 知识计算

知识计算主要是根据图谱提供的信息得到更多隐含的知识,如通过模式层以及规则推理技术可以获取数据中存在的隐含信息。

知识计算涉及三大关键技术:图挖掘计算、基于本体的推理、基于规则的推理。

1、图挖掘计算:基于图论的相关算法,实现对图谱的探索和挖掘。图挖掘计算主要分为6类:

1)图遍历:知识图谱构建完之后可以理解为是一张很大的图,可以去查询遍历这个图,要根据图的特点和应用场景进行遍历。

2)图里面经典的算法,入最短路径。

3)路径的探寻,即给定两个实体或多个实体去发现他们之间的关系。

4)权威节点的分析,这在社交网络分析中用的比较多。

5)族群分析。

6)相似节点的发现。

图挖掘计算示例

2、基于本体的推理:利用本体推理发现新知识或冲突检测。

基于本体的推理示例

3、基于规则的推理:使用规则引擎,编写相应的业务规则,通过推理辅助业务决策。

基于规则的推理示例

3.6 知识存储

知识图谱是基于图的数据结构,其三元组的表达方式在存储上,主要有三种方式:关系型数据库、非关系型数据库及两者的混合。非关系型数据库有键值对,及图存储如RDF,属性图、图存储不是必须的。

(1)关系数据库存储方式:

基于RDBMS的三元组存储方案将三元组数据以表的形式存储,在查询时将SPARQL转化为SQL进行计算。使用该方案的研究有3store、Redland和RDFStore。这种存储方式简单,但表模型限制了数据的结构,检索效率低。

(2)RDF 图存储方式:

RDF图存储方案主要设计针对RDF数据模型的索引,控制数据在系统中的分布,从而获得高效的检索性能。为了解决三元组搜索的效率问题,RDF图存储系统使用6个索引(SPO、SOP、PSO、POS、OSP、OPS)来覆盖所有可能的访问路径。RDF存储把实体,关系都作为节点,不是直接的图计算得结构,但因为RDF及RDFS的标准框架,在逻辑推理上,知识融合上有相对成熟的技术。使用该方法的研究包括YARS、RDF-3X、JenaTDB等。

RDF示例

(1)属性图数据库存储:

属性图数据存储,其基本含义是以“图”这种数据结构存储和查询数据,它的数据模型是以节点表示实体或概念,以边表示关系,如下图所示。属性图数据库提供完善的图查询语言、支持各种图挖掘算法。

图数据库示例

(2)二者的区别

基于RDF的存储和基于属性图数据库的存储之间的区别如下表所示。RDF存储的一个重要设计原则是数据的易发布以及共享;属性图数据库则把重点放在了高效的图查询和搜索上,尤其在复杂的关系网络中极具优势。其次,RDF以三元组的方式来存储数据而且不包含属性信息,但属性图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。

RDF存储和图数据库存储的区别

下表是目前比较流行的基于图存储的数据库排名。从这个排名中可以看出相比于RDF存储,属性图数据库这种存储方式的应用更为广泛。在属性图数据库存储领域中,Neo4j占据着NO.1的地位,它拥有活跃的社区,而且系统本身的查询效率高,但唯一的不足就是不支持准分布式。对于10亿节点以下规模的图谱来说,Neo4j已经足够,如果数据量特别庞大,则Neo4j很可能满足不了业务的需求,这时候就需要去选择ArangoDB,OrientDB、JanusGraph等支持分布式的系统。但这些系统相对较新,社区不如Neo4j活跃,这也就意味着使用过程当中不可避免地会遇到一些刺手的问题。而在RDF领域里,Jena还是目前为止最为流行的存储框架。

基于图存储的数据库排名(部分)

第四章 企业知识图谱的构建过程

企业图谱的构建,其基本技术模块与其它类型的图谱一样,但因为所涉及的信息量和知识体系不同,在构建方法、步骤及侧重点上与开放域知识图谱不尽相同。总体来讲,企业在运行过程中,积累了大量内部信息,其业务架构、信息架构、数据资产承载了企业的业务运作,特别是信息架构于数据资产是业务语言的信息化,是构建各类企业图谱的主要信息来源。企业知识图谱既需要从开放信息中获取通用知识,也需要从行业信息、企业信息,甚至特定专业领域信息获得对企业知识的深度理解。在目前的技术框架下, 企业知识图谱的构建是人机互动,迭代优化的过程。从技术方法上采用半监督学习(Semi-Supervised Learning)或互动学习(Active Learning) 的方法比较普遍。这一章就不同场景下企业知识图谱的构建分步骤进行讲解其特有的问题。图4-1 是企业图谱的技术架构图,在图谱表示及建模模块中显示出企业图谱的构建所需的信息源多种多样。这种多样性造成了信息获取渠道与信息处理技术上的不同,对不同种企业图谱的构建作用不同。

企业图谱的技术架构图

企业知识图谱构建几个关键步骤,按时间顺序如下图所示:

企业图谱构建步骤

第一步:业务场景定义。业务场景决定信息涵盖范围,语料库的选取以及信息颗粒度的表示(概念的层级)。特殊场景知识图谱回答的问题比较具体,信息颗粒度较细,例如,AP 智能热线是就公司AP报销业务的问答系统,涉及的信息包括公司的报销政策及内部术语,要求系统能够理解用户意图,并从历史答案或政策文档中找出相应答案。这种应用涉及到对报销政策点的解读,需要对收集的信息进行细颗粒度的抽取。特定领域知识图谱应用场景可宽可窄, 而跨/全领域的图谱应用场景广,因涉及的信息范围广,逻辑复杂,文档、链接类较粗信息颗粒度一般比较具体。

信息颗粒度在企业图谱建设中是个不可忽视的问题,企业知识是多层级、多视角的。根据应用场景决定信息颗粒度,以及图谱的精确性与有效性。比如手机,有品牌、型号、批次、甚至单个手机。同样的信息范围,颗粒度越细,图谱应用越广泛,关系越丰富,但冗余越多,知识消费越低效。信息颗粒度的原则是能“满足业务应用的最粗颗粒度”。

第二步:信息收集。信息的选取要考虑几个方面的内容。1)跟应用场景直接相关的信息,例如,AP热线是问答系统,直接相关的信息是其历史QA 对的语料库,P&S 产品图谱的信息是P&S 信息系统中存储的有关产品的几棵树(信息架构、物理表)。财经知识管理的信息是跟财经业务相关的所有政策文档、流程、操作指导、社区等语料。2)跟应用场景间接相关,但辅助理解问题的信息。这包括企业信息、专业领域信息、行业信息以及开放域信息。如要理解AP热线的QA对,需要收集华为术语、财经政策、开放域常识等信息; 要理解CBG产品的QA对,需要收集华为手机的产品树、零部件、质量问题、产品测试手册、公司手机相关的语料,以及手机电子产品行业术语,当然还有人类自然语言的通用语料。企业知识的特点是既有企业特色,又有企业所在行业特色,同时各业务部门也有其专业特色, 因此在语料的选取上,要根据应用场景,融合内部、外部不同的语料库以获取信息。一般来讲,特定场景下的企业知识图谱所需信息相对较窄,全领域或跨领域的企业知识图谱是最为复杂,所需信息最多的。

第三步:知识建模。模型图在企业图谱中的作用不可忽视。相同的数据可以有若干种模式的定义,良好的模式可以减少数据冗余,提高实体识别的准确率,在知识建模的过程中,要结合数据特点与应用场景来完成。特别是企业知识图谱中,同样的数据从不同视角可得出不同的知识模型。模式图可以简单,也可以复杂;可以从通用知识得来,也可以是从业务知识得来;可以是从上到下手工建立,也可以是从下向上从数据中抽取再总结分类。企业图谱的模式图建设的原则:1)从应用场景出发,对实体的类别、关系的种类能够满足应用场景即可。2)能简单不复杂,减少不必要的层级结构。3)一般是采用上下结合构建方式,从上到下手工建立初始模型图,再根据数据验证扩充,其构建是个半监督不断循环过程。4)企业的信息架构可作为初始的模型图。企业的运作是由信息系统承载,记录的。企业知识图谱是对支撑企业运作的信息建立模型,以便有效的消费企业信息。作为企业信息的分类、规范体系的信息架构, 是知识图谱模型图设计中的主要参考体系。企业图谱中关于专业相关的实体的类型及属性可参照信息架构的分类方式。关系的种类则根据应用场景定义。例如P&S与CBG 的产品图谱,就是在信息架构的基础上构建的。特殊场景的企业知识图谱实体种类较少,概念相对较少。关系的种类则根据具体应用场景,其模式图一般通过手工构建。特定领域、全领域或跨领域的企业图谱则可依据信息架构为种子,再根据语料库进行验证与扩展。模式图的构建过程如下图所示。

模式图的构建

第四步:实体、概念、属性、关系的标注。企业知识图谱中涉及的实体、概念可分为三类:公共类、如人名、机构名、地名、公司名、时间等;企业类,如业务术语、企业部门等;行业类,如金融行业、通讯行业等。公共类概念实体可从开放域知识图谱获得;企业类可根据企业信息架构、企业术语字典、数据资产等获得。特别是企业信息架构,承载了企业运作的信息,信息架构中的业务对象,逻辑实体涵盖了企业运作大部分的概念,逻辑实体的属性可用于描述概念的属性。物理表里的实例可作为图谱的实体;信息架构的层级关系可以作为关系的一种进行标注。 行业类可从行业图谱、行业图书、网站获取。标注的实体、概念、属性,关系可以作为训练语料,进行语法,句法的分析,为实体、概念、属性、关系的扩展打基础。

第五步:实体、概念的识别。企业图谱中实体,概念的识别可根据业务输入与数据资产中已有的信息作为种子,运用命名实体识别(NER)的方法扩展出新实体概念, 经业务确认后,列入实体、概念库、企业图谱中的实体、概念一定要经过业务确认防止信息漂移。下图示意实体、概念的识别过程。

实体概念识别过程

第六步:属性识别与关系识别、企业图谱中的属性与关系一般是根据业务知识在模式层设计时定义, 属性与关系相对稳定,其扩展场景不是很多.

第七步:知识融合。对知识融合的需求根据企业图谱的复杂度而不同。特定场景、特定业务领域,以及全/跨领域的企业知识图谱因所涉及的知识领域从窄到宽,对知识融合的需求也从小到大。企业知识图谱的知识融合包括几方面的融合:开放域通用知识、企业通用知识、行业知识以及企业专业领域知识。在融合的技术上与其他类型的融合技术相似,有概念层的融合以及数据层的融合。在实体、概念的消歧上按企业、行业、通用的顺序,优先使用企业的定义。

第八步:知识存储。企业图谱的存储技术要综合考虑应用场景、 图谱中节点、链接的数量、 逻辑的复杂度、属性的复杂度,性能要求。一般采用混合存储方式, 用图数据库存储关系,关系型数据库或键值对存储属性。对偏重逻辑推理的应用场景,以RDF的存储方式,对偏重图计算的应用场景选择属性图的存储方式。

第九步:知识计算。企业图谱的知识计算完全根据应用场景,是逻辑推断为主,还是图计算为主。涉及的技术与其它领域相似,在此不再重复.

第五章 总结

        知识图谱作为近两年在大数据时代下新颖的信息组织与检索技术,其优势逐渐体现出来,受到了业界和学术界的广泛关注。但当前知识图谱发展还处于初级阶段,算法工具等还在不断探索及发展中。在构建知识图谱时,会面临一些挑战,特别是企业知识图谱。因其应用场景复杂,信息来源多样,信息结构不一导致其在构建过程中碰到的问题可能不一样。语料库的大小是企业图谱构建中算法的有效性的主要瓶颈,但这一瓶颈可以用对企业知识的了解来弥补。在构建企业图谱时应本着应用引领,避难就简,充分利用信息架构中数据资产。最后,企业知识图谱的构建是一个不断迭代的过程,依据用户的反馈、语料的增加与更新,不断进行模型的更新与迭代。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

泡八喝九美十

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值