知识图谱初识-知识图谱与语义技术简介

最近在学习知识图谱相关知识和技术,所以会在博客做一个记录,首先对学习过程中所读资料的作者表示衷心的感谢,其次,在整理过程中若本人理解有偏差或者有不到位的地方望大家多多包涵指正。

本文主要是对整个知识图谱体系进行一个大体上的认识,明白知识图谱是个什么东西,大致包涵那几块内容,每一块大致用到了哪些技术,而对于其中的技术,后面我会慢慢整理。

知识图谱技术概览

知识图谱概念演化

1960年,语义网络作为知识表示的一种方法被题出。
1980s,哲学理念“本体”被引入到人工智能领域被用来刻画知识。
1989年,Tim Berners-Lee发明了万维网(Linked Information System)。
1998年,从超文本链接到语义链接。
2006年,Tim突出强调了语义网络的本质是要建立开放数据之间的链接。
2012年,谷歌发布了基于知识图谱的搜索引擎产品。

从以上历程我们可以看出,知识图谱其实是得益于Web的发展,其中有着KR,NLP,Web,AI等多方面的影子。

知识图谱的本质

知识图谱整个体系还是比较大的,目前没有一个标准的定义,其中“Exploiting Linked Data and Knowledge Graphs in Large Organisations”这本书对知识图谱的定义为:

A knowledge graph consists of a set of interconnected typed entities and their attributes.

翻译过来就是:知识图谱是由一些相互连接的实体和它们的属性构成的。

其中最经典的就是三元组:

其实就一主,一谓,一宾。比如上图的人工智能,之父是,图灵。实际上就是我们所说的“人工智能之父是图灵”

我们也可以从不同方面来看知识图谱:

从Web角度 像建立文本之间的超链接一样,建立数据之间的语义链接,并支持语义搜索。
从NLP角度 怎样从文本中抽取语义和结构化数据。
从KR角度 怎样利用计算机符号来表示和处理知识。
从AI角度 怎样利用知识库来辅助计算机理解人的语言。
从DB角度 用图的方式去存储知识。

所以啊,其实做好KG要利用好KR,NLP,Web,ML,DB多方面的方法和技术。

我们再举个例子:

“聪明的Ai”其实是从学习的角度进行感知,识别,判断,依靠深度学习。
“有学识的Ai”其实是从推理的角度进行思考,语言,推理,依靠知识图谱。

知识图谱技术简介

技术体系其实可以概括为:知识表示,知识抽取,知识问答,知识推理,知识融合,知识众包。
途中下面表示的是数据部分的主要来源:KBP,D2R,Linked MEDIA/Visual Genome,OneM2M,WikiData。

知识表示

知识表示是研究怎么样用计算机符号来表示人脑中的知识,以及怎么样通过符号之间的运算来模拟人脑的推理课程。

图上是整个知识图谱的演进过程(知识演进也是一个很有意思的方向,有机会后面整理哦),其实说白了就是一个基于数理逻辑的知识表示到基于向量空间学习分布式知识表的过程。

以上这个图是官方给出的语义知识网表示框架,由于本篇文章是知识图谱概览,所以我们大概来看一下这个框架。最底层的URI/IRI是网络连接,上面一层是XML和RDF是资源表示框架,而SPARQL是一种知识查询语言。而蓝色部分(知识推理框架)包含了RDFS和OWL框架。下面我们对其中的几个框架做进一步解释:

RDF:资源描述框架(Resource Description Framework),它是由W3C制定的,是用来描述实体/资源的标准数据模型。

还是以上面这个图为例,在知识图谱中我们一般用RDF形式化的来表示三元关系(Subject,predicate,object)。

RDFS在RDF的基础上定义了一些固定的关键词:Class,subClassOf,type,Property,subPropertyOf,Domain,Range以及多了Schema层。如下图:

OWL:网络本体语言(Web Ontology Language)这个本体实际上是从哲学里面来的,OWL在RDF语言上扩充了Schema层,使之支持推理等操作。

Ontology in Philosophy:
Ontology is the philosophical study of the nature of being, becoming, existence or reality, as well asthe basic categories of being and their relations.
                                  Tom Gruber,Founder of Siri
哲学本体论:
本体论是对存在,成为,存在或存在的本质以及存在及其关系的基本类别的哲学研究。
                                                韦伯斯特

Ontology in Computer Science and Artificial Intelligence:
An ontology is a description (like a formal specification of a program) of the concepts andrelationships that can formally exist for an agent or a community of agents.
                                Tom Gruber,Founder of Siri
计算机科学与人工智能中的本体论:
本体是对代理或代理社区可以正式存在的概念和关系的描述(如程序的正式说明)。
                                Siri创始人汤姆·格鲁伯

Web Ontologies
Ontologies based on web standards such as RDFS/OWL.OWL is based on Description Logic, avery very long history of research in Artificial Intelligence.
基于Web标准的本体(如RDFS/OWL.OWL)是基于描述逻辑(DescriptionLogic)的,人工智能研究历史悠久。

SPARQL:SPARQL是RDF的查询语言,它基于RDF数据模型,可以对不同的数据集撰写复杂的连接,由所有主流的图数据库支持。其操作如:

JSON-LD:(JSON for Linking Data) 适用于作为程序之间做数据交换,在网页中嵌入语义数据和Restful Web Service。存储格式如:

知识图谱的分布式表示–KG Embedding:在保留语义的同时,将知识图谱中的实体和关系映射到连续的稠密的低维向量空间。

知识抽取

知识抽取大多是结合NLP和KG进行的。

先是从网络获取大量的非结构化的文本数据,经过文本预处理后得到干净的文本数据,然后借助分词,词性标注,语法解析,依存分析等技术对文本进行处理,我们得到词法和句法的分层,接下来我们对文本进行NER命名实体识别和实体链接,最后通过关系抽取和事件抽取最终得到KR用的三元组,多元关系,模态知识等。

知识抽取的主要方法

知识存储

知识比数据的结构更加复杂,知识存储需要综合考虑图的特点,复炸的知识存储结构,索引和查询(支持推理)的优化等问题。
典型的知识存储引擎分为基于关系数据库的存储和基于原生图的存储。
在实践过程中,多为混合存储结构,图存储并非必须

知识问答

KBQA(Knowledge-Based Question Answer,基于知识库的问题回答)
以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态。

我们来举几个例子:

传统的搜索引擎,只会将匹配的资源列在页面,我们需要自己去筛选理解其中的信息,以获取自己真正想得到的问题的答案。而嵌入了知识图谱的搜索引擎似乎更“智能”了,它能直接很直观的返回我们想要的真正的问题的答案。是不是很方便呢!

我们以一个例子来看看KBQA的实现流程:

当你问“姚明的老婆多大了?”这个问题的时候,首先会对这个问题进行语义解析得到问题的语义表示,然后再KB中查找答案,最终将答案返回,其中KB知识库的数据数量和质量直接决定了该系统的质量。

知识推理

简单的来说,推理就是指基于已知事实推出来未知的事实的过程。
目前大部分搜索引擎都已经有了一定的推理能力。比如:

基于描述逻辑的推理:本体推理

描述逻辑:描述逻辑(decription logic)是一种用只是表示的逻辑语言和以其为对象的推理方法,主要用于描述概念分类及其概念之间的关系。描述逻辑是当前语义网发展中本体的理论基础。

主要方法:

(1)基于表运算(Tableaux)及改进的方法:FaCT++,Racer,Pellet Hermit等

(2)基于一阶查询重写的方法(Ontology based data acess,基于本体的数据访问)

(3)基于产生式规则的算法(如KAON、RDFox等)。

(4)回答集程序 Answer set programming

基于统计规则挖掘的推理

基于表示学习的推理-Representational Learning

知识融合

知识融合有一些其它叫法: Record Linkage,Entity Resolution,DataLinking,Knowledge Fusion,Entity Alignment… . . . .
都是指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。

我们来用上图这个例子通俗一点来说一说什么叫知识融合,上图中下面一层的头像有7个,但是上面一层的头像只有2个,是因为下面一层的头像都是由上面两个头像戴上眼镜,假发等而来,所以我们只需要抓住上面两个头像进行处理就行了。
这就好比说,“洋芋、荷兰薯、地蛋、薯仔、土豆、荷兰薯、番仔薯、马铃薯”都指的是一个东西,知识融合要做的就是将这8个别名融合成一个名称。

知识众包

这个概念通俗的讲就是允许网站基于一定的方式,比如RDFa,JASON-LD等方式在网页和邮件等数据中嵌入语义化的数据,让个人和企业定制自己需要的知识图谱信息。

特别感谢:
上海交大的王昊奋博士的教程和东南大学漆桂林教授的文章以及其他资源的作者。

在整理过程中若本人理解有偏差或者有不到位的地方望大家多多包涵指正。
个人qq:1518887260

整理于2020年10月24日

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值