echarts做企业关系图谱_知识图谱平台化助力知识图谱行业大发展

本文分析了知识图谱平台诞生的必要性,解释了知识图谱平台的功能、作用及其对人工智能的影响。知识图谱平台通过自动化技术提高知识构建效率,降低学习成本,推动大数据向大知识时代的转变。平台涉及本体建模、D2R技术、信息抽取、知识融合等多个技术领域,有望在未来实现自动化知识加工,赋能行业应用。
摘要由CSDN通过智能技术生成

b541f66227cf908f8a65d8eb49a6dd57.png

知识图谱平台是知识图谱成功的保障

作者:漆桂林

2019年5月份的CSDN CTA核心技术及应用峰会,我做了一个知识图谱技术分析和平台化路线的主题演讲,回顾这一年来知识图谱的发展,应该说印证了我对知识图谱商业化发展的预测,多个公司推出知识图谱平台产品,比如说南京柯基数据的知识图谱平台将知识图谱的各项技术融合到平台中,使得知识图谱构建效率极大提高,成本极大降低。随着知识图谱平台化产品的普及,大数据时代向大知识时代转变的速度将加快。下面首先分析一下为什么需要做知识图谱平台化,知识图谱平台可以做什么,不可做什么,这对于广大知识图谱应用及研究人员、各大企业、科研院所的意义是什么。然后给出知识图谱未来发展的一些思考。

一、行业级知识图谱平台诞生的必要性

知识图谱的概念提出至今也有8年时间了,在这8年时间里,知识图谱不仅仅在学术界取得了丰硕的成果,而且在工业界也产生了很大的影响力。关于知识图谱是什么以及应用,请参考以下知乎文章以及知识图谱专著:

漆桂林:知识图谱之知识表示篇​zhuanlan.zhihu.com
15ed953e1dc0f54b7ea6ff2986bdfd2b.png
https://zhuanlan.zhihu.com/p/28609177​zhuanlan.zhihu.com
8d08d7fcf50e5bfcb531fed3cfbbb4bb.png
漆桂林:知识图谱的应用​zhuanlan.zhihu.com
0f07f90f27a576796acff9e9cd51faba.png
柯基数据:柯基数据|企业知识图谱落地案例分享​zhuanlan.zhihu.com

知识图谱虽然很有用,而且是人工智能的一个重要分支,但是由于它跟多个学科交叉,使得学习成本很高,无论在学术界还是业界来说,普及率相对于机器学习是比较低的。国内具备知识图谱完整构建能力的大学和公司是非常少的。

55bc0ce389edf54591eb6df035b7aef0.png
图1:知识图谱技术架构图(来源于openKG)

图1给出了知识图谱的技术体系,这是由openKG的王昊奋老师总结的,下面是openkg的链接。

OpenKG.CN - 开放的中文知识图谱​openkg.cn
887f31b3e422d16a9cd5a043ec4cc9c9.png

从图1我们可以看出来,知识图谱技术可以应用于任何种类的数据。从文本数据中,我们通过信息抽取技术,可以抽取出三元组数据;从结构化数据中,我们通过构建本体并采用D2R技术可以自动转化出知识图谱;从多媒体数据中,我们通过图像识别或者图像理解技术(见我们实验室今年发表的JIST2019和AAAI2020论文),抽取出图像实体关系和图像分类的三元组数据;从传感器中可以自动化导出流式三元组数据;从各类百科、WikiData等众包数据中,可以利用信息抽取技术获得高质量的知识图谱。知识图谱涉及到的技术包括本体建模、知识表示、知识抽取、知识融合等,用以支撑语义搜索、智能问答、推荐等应用。

下面先介绍一下本体建模技术。

6bcb59b74c2ac4af8b5b0a97a696ff08.png
图2:本体建模

图2给出了本体的非形式化定义,也就是说本体是某个领域的通过关系实现的概念结构,举例子,人和教师都是概念,它们之间有一个上下位的关系(教师,ISA,人),意指所有的教师都是人。我们还可以把一个本体理解为一个形式化的词汇(及其含义)的集合,正是有了本体,才使得机器和人,机器和机器之间的知识共享成为了可能。比如说,人在小时候学习语文的时候,都离不开字典,比如说新华字典,为什么需要呢,因为字典有很多字词、短语的释义,这个字典对于人来说,就是一个本体。但是人类的字典机器理解不了,机器需要有一种形式化的语言表示的本体。目前知识图谱构建需要的本体语言还比较简单,基本上RDFS(RDFS_百度百科)就够了。一般来说,本体的元素有对象(又称概念或者类)、属性(又称数据类型属性)、关系(又称对象属性)。这里对象之间会有上下位的关系,一个对象可以理解为一个集合,比如说“人”这个对象,可以理解为所有人组成的集合,而上下位关系可以理解为集合的包含关系,比如说(教师,ISA,人),指的就是所有的教师都是人。属性是附属于某个对象的,就比如说,“出生日期”这个属性,是附属于“人”这个对象。另外,属性都有取值,比如说,“出生日期”的取值是日期。最后,对象跟对象之间会有关系,比如说“教师”和“学生”自己有“指导”关系。

本体建模是知识图谱构建时非常重要的一个技术,这个技术目前还无法通过自动化手段解决,是知识图谱构建时最依赖于人工的一项技术。本体建模的难度体现在以下几个方面:

首先,本体建模需要考虑业务需求,也就是要根据业务需要来定义概念,这些概念可能是从数据库的一张表来的,可能是某个文档中的术语,确定了概念后,需要定义概念的属性以及概念之间的关系,属性和关系的定义也是根据业务需求来做的,比如说,我们可能把两张表合并成一张表,那么这张新的表就是一个对象,而该对象的属性可以来源于原始的两张表。想通过自动化手段来实现本体建模,只能深入到行业中,把各种可能的业务逻辑研究清楚了,才有希望。

其次,本体建模还需要考虑到本体的动态性,这是因为本体中的对象可能会改变,还可能会增加新的对象,或者有些对象不复存在,而且这些对象的属性、关系也可能变化,美国著名的大数据公司palantir的动态本体建模就是为了处理这一问题,关于动态本体的介绍见我的知乎帖子

漆桂林:动态本体简介​zhuanlan.zhihu.com
1b87633c3b9859aadaa66f7b0189d00d.png

最后,本体建模工具做得好的不多,开源工具中做得好的是protégé。但是开源的工具做得比较复杂,因为要考虑各种本体语言,比如说OWL,但是知识图谱构建早期,RDFS就够用了,随着业务的深入,RDFS作为一种建模语言,表达能力太弱,就需要引入OWL。利用protégé来做本体建模效率一般比较低,这是因为protégé是一个通用的本体建模工具,功能很多,但是学习成本比较高,另外,由于是高校维护的一个工具,更新比较慢,运维方面基本上是没有的。

其次,介绍一下Database to RDF(简称D2R)技术。

e2f67d96f4b6de794f6264be7748fd80.png
图3:D2R技术图

D2R技术是基于本体来做的,也就是假设已经构建了一个本体,怎么利用这个本体将数据库中的表格数据导出来自动化形成高质量的知识图谱。这个技术对于构建垂直领域知识图谱来说是至关重要的。很多人谈到知识图谱,会认为必须采用自然语言处理(NLP)技术,但是事实上,垂直领域知识图谱构建最简单的方式就是采用D2R技术来完成的,这里不需要用任何的NLP技术。

edc1342c5cecdcd8ea365e7d402f20ae.png
图4:学生教师表结构

图4给出了一个学生教师表结构的例子。通过这个表结构,可以手工或者半自动抽取出一个本体。见图5。

d05f9995ca3e8748debd5a0f9adbcfee.png
图5:学生教师本体示例

通过将表结构跟本体进行映射,即可将表格里面的数据导出形成一个知识图谱。见图6

30e47c705e8470c796f0c13140baf545.png
图6: D2R技术构建图谱示例

关于D2R技术,可以参与一下Oracle的一个教程。

Converting Relational Data Into RDF Format​www.oracle.com

但是D2R技术也不是想象中那么容易实现。这里的难点体现在以下几个方面:

  1. D2R要求对业务的理解:哪些表格需要处理?表格的哪些字段需要提取?字段如何组合?

2. 数据库模式到本体如何映射:代码硬编码很难使用,可操作性的工具缺失,以及数据库的主外健往往缺失,需要补充。

D2R技术是从数据库中抽取知识的技术,如果要从文本或者网页中抽取知识,就需要用到信息抽取技术,这也是NLP发挥作用的地方(见图7)。

83623e74ec273fe5c4368aab8b83152e.png
图7:知识抽取技术

图8给出了介绍了什么是关系抽取,这是知识抽取的核心技术之一。

29b88b5982b315ed04bc4d1986f8cfd0.png
图8:关系抽取

虽然关系抽取取得了很多研究成果,目前的关系抽取技术还很难满足知识图谱构建的需求,特别是文档级别的关系抽取还没有很好的解决方案。下面举一个例子:

“坦白从宽,这次东京三人行,一如既往,就是聊天吃饭逛逛之旅,…,真正的重点,是一点都不能写的「聊天」内容,电车上、计程车里、吃饭喝茶咖啡时、所有的路上,无时无刻,我和长声兄多数的时间是听众,历史文学时事戏曲,章先生随口故事都是大块文章,难忘!“

从这段话中,我们可以看出有一个关系三元组先生 到访 东京。但是这样一个三元组用现有的技术是很难抽取出来的。

当抽取的问题解决后,还有一个很关键的问题需要去解决,那就是知识融合问题,这是因为知识是从不同的数据源获取的,那么很自然会存在数据的异构问题和冲突问题。知识融合最核心的问题是知识的对齐,指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息,下面一个网站专门维护这方面的成果:

Publications​www.ontologymatching.org
39c138616a5e667be8e293a3fdef5559.png

9ec836962908392b85c3c01afa633b61.png
图9:知识对齐的例子

图9给出了知识对齐的一个例子,即从互动百科和百度百科都可以得到人物“于欢”,但是百度百科有3个于欢,到底这3个于欢中哪一个对应到互动百科的于欢呢?这里需要考虑实体的上下文来进行消岐,而消歧就有很多方法。知识融合有以下难点:

首先,自动化的语义匹配难以达到高精度:采用字符串匹配可能会导致错误,而且漏掉相似实体,最近有研究采用机器学习(深度学习)方法,特别是基于知识表示学习或者预训练模型的方法,但是很可惜这些方法只能用于特定数据,实战效果不佳。另外,数据动态性导致匹配效果不佳。

其次,知识融合需要考虑数据的冲突处理:属性值冲突和逻辑冲突,而这需要跟本体定义结合起来。

当采用抽取和融合的技术构建起了一个知识图谱后,我们需要把知识图谱入库,这就涉及到知识图谱的存储和检索问题。知识比数据的结构更加复杂,知识的存储需要综合考虑图的特点、复杂的知识结构存储、索引和查询 (支持推理)的优化等问题。

•典型的知识存储引擎分为基于关系数据库的存储和基于原生图的存储。

•在实践中,多为混合存储结构,图存储并非必须。

知识存储也有一些难点,总结如下:

首先,各种数据库如何选择:比如说Neo4j, AllegroGraph, MongoDB等如何选择?需要进行性能对比,并且需要根据业务场景来选择

其次,开源图数据库的性能不一定满足要求,需要进一步优化:比如说,免费版的图数据库(比如说Neo4j的社区版)无法高效处理数据的查询,需要进行优化。另外,Neo4j的社区版本不支持分布式,扩张性是一个大问题。

总结来说,知识图谱的技术栈比较长,而且每一项技术都较为复杂,技术研发周期长,需要多年的研究积累,导致了知识图谱技术难以普及,目前高校仅有少数实验室具备知识图谱全栈能力,而且实用化工具也不多,而具备知识图谱实施能力的公司也很少,很多公司虽然宣称具备知识图谱构建能力,但是事实上只有一个NLP构建能力或者图数据库能力。知识图谱平台的缺失是导致知识图谱技术无法有效传播的根本性瓶颈,这跟深度学习有多个平台形成了鲜明。只有当越来越多的开源或者商用化知识图谱平台出现了,才有可能有效解决知识图谱落地的困境。

二、知识图谱平台是什么,可以做什么?

图10给出了我对知识图谱平台的一个定义。

fa7914bd35f8e94888f5185f820069d7.png
图10:知识图谱的定义

从图10可以看到,知识图谱平台绝对不是一些技术的堆积,而是把各种技术有机地组合起来形成的一套具备人机交互和自学习机制的智能体。

5aa0d16bbfca11cb8597ef92ec549fa1.png
图11:知识图谱平台与行业落地

图11给出了知识图谱平台跟知识图谱行业落地的关系。总结来说,知识图谱平台不是靠技术人员凭空设计出来的,而是在落地过程中不断解决实际问题演化出来的。在行业落地的过程中,这个平台将不断积累各种行业知识,就如同人学习知识一样,从而实现知识的积累和应用。

7b677312445fb6d310ef351c0129aa8a.png
图12:知识图谱平台对人工智能的意义

图12给出了知识图谱平台对人工智能的意义。从这个图可以看出,知识图谱平台的出现,将对人工智能的发展产生深远对影响,将有效保证人工智能在未来有更大的价值。

三、知识图谱平台如何发挥作用?

随着知识图谱在多个领域落地,知识图谱平台的作用将越来越明显,但是是否知识图谱平台可以很容易用起来呢?事实上,要构建一个强大的知识图谱平台,是需要很多年的积累的,这里有很多技术需要去攻关。知识图谱平台的产生代表知识加工将自动化,更多还是提高知识加工的效率。预计在不久的将来,可以熟练使用知识图谱平台完成各种知识加工和服务的知识工程师将越来越多,这里将产生不少职位,如初级知识工程师,高级知识工程师,知识架构师等。另外,知识图谱平台除了提供知识加工的能力以外,还将提供各种知识服务的能力,比如说语义检索、智能问答、辅助决策等。这些知识服务能力都需要知识工程师来完成。

那么,知识图谱平台的云服务模式是否可行呢?这里要区别知识图谱平台的云服务和知识云服务。知识图谱的云服务指的是通过在线云的方式让用户自己构建知识图谱和完成各种应用,而知识云服务则是有云服务厂商构建好知识图谱,但是通过问答、搜索、推荐等在线的知识服务。可以预计,在未来的1-2年内,垂直领域知识图谱平台的云服务模式将出现,比如说在金融、军工和医药行业。有些人工智能著名公司,虽然有较强的NLP和知识图谱能力,但是知识图谱平台级产品其实是不强的,这是因为知识图谱一开始必然是项目为主,切入一个领域的时候,需要较高的实施成本,而且项目规模不一定很大,而大公司做一些小项目是很难有较大盈利的,所以反而是类似柯基数据这样的专业知识图谱平台型公司的产品会更有优势。

四、知识图谱平台与大数据平台相辅相成

知识图谱平台跟大数据平台一样,需要处理各种格式的数据。对于结构化数据的处理,知识图谱平台跟大数据平台有很多功能是重合的,比如说ETL,比如说数据清洗。区别在于,知识图谱平台需要通过构建本体来建立数据之间的语义关系,并且将数据库的数据通过本体集成形成强关联的知识网络,而数据库则只是通过schema的来对数据进行集成(这里会用到视图的概念,比如说global-as-view, local-as-vew)。在知识图谱领域,有一种虚拟知识图谱(virtual knowledge graph),就跟数据库基于视图的技术类似。对于非结构化数据,知识图谱平台跟大数据平台则有本质的差异。大数据平台一般仅仅是讲文本、图像、视频等非结构化数据放入文档数据库或者ES进行索引,并且通过关键词技术来检索,做得好点的大数据平台会有文本分析系统,比如说对文本的分类、聚类、打标签、命名实体识别,但是不具备或者具有比较弱的图谱构建能力,最多基于Neo4j做一个图谱的导入,这样构建处理的图谱可维护性比较差,且无法有效支持智能问答、智能检索等应用。

5c444b1e0ba7453dcbcf2ddc87959d6b.png
图13:大数据到大知识的技术框架

图13给出了一个从大数据到大知识的技术框架,可以看出来,大数据平台跟知识图谱平台是可以有机结合的。

40693e2a0d537f7fa0657aa2c789e6f7.png
图14:结合知识图谱和大数据的架构图

图14给出了知识图谱和大数据结合的一个架构图。从这个图可以看出,知识图谱跟大数据结合的核心是本体构建、数据融合和图谱构建(主要是自然语言处理技术)。

五、总结和展望

本文介绍了知识图谱平台产品对于知识图谱发展的意义。知识图谱平台将赋能公司、企业、高校和科研院所具备行业图谱构建的能力,实现从大数据到大知识时代的跨越,让人工智能技术更好地服务于社会。

展望未来,随着知识的不断积累和知识抽取技术的演化,知识图谱平台将在人机交互方面的能力不断增强,特别是在领域落地深根后,有望实现自动化知识加工,从而实现具有认知思维能力的人工智能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值