1.语义网知识描述语言
语义网络和语义网是两个概念。
(1)升级顺序:
属性图/XML——RDF——RDFS——OWL
(2)属性图
由点表示实体,由边表示 关系
优点:
表达方式非常灵活
在查询计算方面具有较大优势
缺点:
缺乏工业标准规范的支持
(3)资源描述框架RDF
可以实现语义网以下三个功能:
一是保证了语义网的内容有准确的含义;
二是保证了语义网的内容可以被计算机理解并处理;
三是可以通过各种网页中的内容集成帮助进行自动数据处理。
RDF的基本组成单元是三元组
例如:<河南大学, 位于, 开封>
RDFS(即升级版)
加了个rdfs:subClassOf ,表示前者是后者的子类。
基于RDF的简单推理
(4)本体知识表示与网络本体语言OWL
概念:基于本体论中的基本元素--概念及概念间的关联的框架。
来源:RDL还是太逊了
OWL相较于RDFS,引入了布尔算子(并、或、补)、递归地构建复杂的类,还提供了表示存在值约束、任意值约束和数量值约束等能力。同时,owl能提供描述属性具有传递性、对称性、函数性等性质。
(5)三种表示方法的区别:
1)属性图是工业界最常见的图谱建模方法,属性图数据库充分利用图结构特点做了性能优化,实用度高,但不支持符号推理。
2)RDF是W3C推动的语义数据交换标准与规范,有更严格的语义逻辑基础,支持推理,并兼容更复杂的本体表示语言OWL。
3)在三元组无法满足语义表示需要时,OWL作为一种完备的本体语言,提供了更多可供选用的语义表达构件,为知识图谱的表示与建模提供理论基础。
2.知识图谱
(1)概念
知识图谱本质上是一种语义网络,其节点代表实体或者概念,边代表实体/概念之间的各种语义关系。
其实就是关键词衍生网络。
(2)当前问题
a.在当前的大规模应用上面临着挑战。
b.知识以基于离散符号的方法进行表达,相关算法具有较高的复杂度,面对大规模的知识库很难扩展。
c.数据具有一定的稀疏性,也就是某一个实体或关系可能具有极少的实例样本。
(3)知识图谱的逻辑结构
分两层——模式层和数据层
a.模式层
数据模型可以展示数据的组织方式和相互关系,当然除了确定对象之间的分类、关系,还要明确对象的属性。
例:对于一个人物来说,
如果是历史知识图谱,可能人物数据的内容主要侧重于人物的生平,主要事迹等;
如果是文学知识图谱,人物数据的内容则会主要侧重人物的主要作品等。
b.数据层
数据层中就是具体一条条的数据,它是依据数据模型组织起来的。
我们可以把数据模型看作是骨架,把具体数据看作是肌肉,两部分共同组成了一个健壮的整体。
(4)知识图谱的两种构建方式
自顶向下的构建方式:指先确定知识图谱的数据模型,再根据模型去填充具体数据。
自下向上的构建方式:指先按照三元组的方式收集具体数据,然后根据数据内容来提炼数据模型。
(5)知识图谱的数据存储
分两种——基于关系数据库的存储和基于图数据库的存储
基于关系的知识图谱的存储:
分五种——三元组表、属性表、水平表、垂直表和全索引
a.三元组表
b.属性表
c.水平表
局限性:不如图 好处理关联查询
知识图谱需要更加丰富的关系语义表达与关联推理能力
基于原生图结构的存储:
图数据库的理论基础是图论,通过节点、边和属性对数据进行表示和存储。
其中,关系和属性都是显示描述和定义的。
图数据库可以充分利用图的结构特征建立索引。
实现原理:免索引邻接
两种存储模式——邻接表和邻接矩阵
(6)知识图谱的构建过程
以自底向上的构建:
这个图就是全流程,建议看完仔细研究
1、知识抽取
从不同来源、不同结构的数据中进行知识提取,形成结构化数据 存入到知识图谱。
1)结构化数据处理
针对结构化数据,数据结构清晰,把其转换为RDF数据
2)半结构化数据处理
具有一定的数据结构,但需要进一步提取整理的数据。对于这类数据,主要采用包装器的方式进行处理。 (包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序)
3)非结构化数据处理
即文本数据,我们要对其进行数据抽取,包括实体抽取,关系抽取,属性抽取。
然后将其一步步转化成结构化数据。
2、知识融合
即合并两个知识图谱。
为什么要进行知识融合?
由于知识图谱中的知识来源广泛,出现知识质量良莠不齐等问题,所以需要进行知识的融合。
知识图谱之间的不匹配会造成造成知识图谱异构:
可被划分为两个层次:
a.语言层不匹配
是指用来描述知识的元语言是不匹配的
b.模型层不匹配
是指由于本体建模方式不同所造成的不匹配
如:概念范围不匹配,模型风格不匹配
3、知识加工
分三方面——本体抽取、知识推理、质量评估
1)本体抽取
分两种——手动构建和自动化构建
自动化本体构建过程包含三个阶段:
实体并列关系相似度计算 → 实体上下位关系抽取 → 本体的生成。
(找相似度近的分一块,然后分上下级,最后成了)
2)知识推理
算法主要分3大类——基于逻辑关系的推理、基于图的推理、基于深度学习的推理。
第二章习题:
1.关于语义网络和语义网,以下说法错误的是( C )
A.语义网络是知识的一种表达方式
B.语义网络采用网络形式表示人类知识的方法
C.语义网是语义网络的替代技术
D.语义网是为互联网添加语义信息,提高互联网的智能性
2.知识图谱的数据模型表示方式的是( 属性图、RDF、RDFS、OWL )
3.可以采用( 图数据库、三元组表、关系型数据库 )方式存储知识图谱
4.在逻辑上,我们通常将知识图谱划分为两个层次: 数据层 和模式层。
逻辑上,知识图谱的构建过程分为 自顶向下 和自底向上两种方式。
5.实体抽取又称命名实体识别,主要有( 基于规则的方法、基于机器学习的方法、基于深度学习的方法、基于半监督学习的方法 )
6.关于知识融合,以下说法正确的是( ABCD )
A.知识图谱数据来源多样,知识融合是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来
B.知识融合主要包含本体匹配和实体对齐
C.知识融合具体来说包含有:等价实例,等价类/子类和等价属性/子属性
D.命名模糊,数据输入错误、数据丢失、数据格式不一致等都是知识融合面临的挑战
7.关于知识加工说法错误的是( B )
A.本体可以采用手动构建和自动化构建,自动化构建更加流行
B.手工本体构建过程包含三个阶段:实体并列关系相似度计算、实体上下位关系抽取 和本体的生成
C.知识推理的对象可以实体间的关系,也可以是实体的属性值,本体的概念层次关系等
D.推理的算法主要可以分为3大类,基于逻辑关系的推理、基于图的推理和基于深度学习的推理