说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。
课程目标
- 了解以知识图谱为代表的大数据知识工程的基本问题和方法
- 掌握基于知识图谱的语义计算关键技术
- 具备建立小型知识图谱并据此进行数据分析应用的能力
教学安排
详情请见博客:CAS-KG——课程安排
文章目录
1. 概述
知识表示的五个主要角色
- 是一种代理:通过对外部事物的内部表示,我们无需实践即可进行内部推理;
- 是一组本体论约定的集合:一套完整的知识体系有助于我们思考世界,聚焦部分知识有助于推理;
- 是智能推理的组成部分:推理需要对知识进行表示,但知识表示不是推理的全部;
- 是高效计算的媒介:知识需要进行有效组织,才能保证推理算法的效率;
- 是人类表达的媒介:基于通用表示框架,方便人们表达和分享对世界的认知,以及人机交互。
知识分类
- 陈述性知识 (declarative knowledge):用于描述领域内有关概念、事实、事物的属性和状态等。
太阳从东方升起
一年有春夏秋冬四个季节 - 过程性知识 (procedural knowledge):用于指出如何处理与领域相关的信息,以求得问题的解。
菜谱中的炒菜步骤
如果信道畅通,请发绿色信号 - 元知识 (meta knowledge):关于知识的知识,包括怎样使用规则、解释规则、校验规则、解释程序结构等知识。
知识表示
从四个层次介绍各种知识表示方法:
- 人工智能和知识工程中的经典知识表示理论
◼ 产生式规则、语义网络、框架、脚本
◼ 一阶谓词逻辑、描述逻辑 - 语义网的知识描述体系
◼ XML、RDF、RDFs、OWL、RIF - 知识图谱中的知识表示方法
◼ DBPedia
◼ WikiData - 数值化知识表示方法
2. 产生式规则表示法
产生式系统依据人脑认知中的各种知识之间大量存在的因果关系,以规则序列的形式来描述问题的思维过程,并据此进行问题求解的一种人工智能系统。其中,系统中的每一条规则称为一个产生式规则。产生式规则表示法是专家系统最常用的知识表示方式,也是人工智能中应用最多的一种知识表示方式。
基本概念:事实
基本概念:规则
产生式系统结构
正向推理的产生式系统
正向推理的产生式系统:示例
反向推理的产生式系统
产生式规则表示法特性
3. 语义网络表示法
语义网络(Semantic Network)是Quillan1966 年在研究人类联想记忆时提出的一种心理学模型。这种思想受到以下两点的启发:1) 人脑记忆的一个重要特征是人脑中不同信息片段之间的高度连接;2) 高度相关的概念能够比不太相关的概念更快地回忆起来。因此,该模型认为人类的记忆是由概念间的联系实现的,进而他提出语义网络的知识表示方法。
语义网络
语义网络的关系
语义网络对多元关系的表达
语义网络系统
语义网络系统的特性
4. 框架表示法
框架表示法是以框架理论为基础发展起来的一种结构化知识表示方式,适用于表达多种类型的知识。框架理论认为人们将现实生活中各种事物的背景知识以某种框架形式存储在记忆中,当面临一个新事物时,就从记忆中找出一个适合的框架,并根据实际情况对其细节加以修改补充,从而对当前事物进行解释和理解。
框架
框架系统
框架系统的推理机制
框架表示法特性
代表性知识库:FrameNet¹
针对词汇的概念进行框架形式的建模
5. 脚本表示法
脚本是一种与框架类似的知识表示方法,由一组槽组成,用来表示特定领域内一些事件的发生序列,类似于电影剧本。脚本表示的知识有明确的时间或因果顺序,必须是前一个动作完成后才会触发下一个动作。与框架相比,脚本用来描述一个过程而非静态知识。
脚本组成
脚本示例
脚本表示法的推理
脚本表示法特性
6. 一阶谓词逻辑表示法
一阶谓词逻辑与知识表示
命题逻辑和谓词逻辑
命题逻辑:基本概念
命题逻辑:表示法
命题逻辑的推理演算
谓词逻辑:基本概念
谓词逻辑:表示法
谓词逻辑的推理演算
谓词逻辑:表示法特性
7. 描述逻辑表示法
描述逻辑通过概念类别来描述物理世界,又具有形式化的模型论语义,因此称为描述逻辑。为了处理一类对象,一阶逻辑需要借助变量、全称量词和谓词;而描述逻辑舍弃了变量,直接处理概念,避免了一些复杂度较高的操作。因此虽然描述逻辑的表现力比一阶逻辑要弱,但具备了一阶逻辑不具备的可判定性,推理算法效率更高,是语义网的基础。
描述逻辑与一阶逻辑
描述逻辑:概念描述、属性、个体
描述逻辑的知识库:TBox和ABox
描述逻辑的推理
描述逻辑系统
描述逻辑和语义网的关系
8. 语义网表示法
语义网的概念来源于万维网(world wide web),是万维网的变革与延伸,是Web of documents向Web of data的转变,其目标是让机器或设备能够自动识别和理解万维网上的内容,使得高效的信息共享和机器智
能协同成为可能。
语义网
语义网体系结构
XML
- eXtensible Markup Language,可扩展标记语言
- HTML:最常用的文档标记语言,结构不明显,难以解析,因此生成的文档只有人能看得懂。
- XML: 理解数据的首要条件是理解数据的结构与类型。XML用树状结构来描述数据,并预定义基本的数据类型(如date, string等),良好的结构易于解析。
- XML Schema:XML预定义的基本数据类型不能很清楚地描述数据类型。XML Schema提供了自定义数据类型的机制,易于解析器解析
XML:元素
XML特性
RDF
- RDF(Resource Description Framework)是一种资源描述框架,利用当前的多种元数据标准来描述各种网络资源,形成人机可读,并可由机器自动处理的文件
- RDF的核心思想:
利用Web标识符(URI)来标识事物,通过指定的属性和相应的值描述资源的性质或资源之间的关系。
RDF数据模型
RDF描述示例
RDF Schema
RDF Schema示例
RDFS词汇表
RDF,RDFS和XML
RDF(S)特性
本体(Ontology)
本体的结构和功能
本体的语言:OWL
- OWL (Web Ontology Language,Web本体语言)是在语义网上表示本体的推荐语言,作为RDF(S)的扩展,其目的是:提供更多原语以支持更加丰富的语义表达并支持推理。
- OWL的三个子语言:
➢ OWL Lite:提供一个分类层次和简单属性约束。
➢ OWL DL:提供推理系统,保证计算完备性和可判定性,与描述逻辑(DL)密切相关故称为OWL DL,具备所有OWL Lite的功能。
➢ OWL Full:支持完全自由的RDF语法,但是不具备可计算性保证,具备所有OWL DL的功能。
表达能力:OWL Lite < OWL DL < OWL Full
OWL:头部
OWL:主体
OWL:类
OWL:个体
OWL:属性
OWL:属性特征
OWL:属性限制
其他OWL建模原语(primitives)
OWL小结
RIF(Rule Interchange Format) 规则
语义网的推理:Unifying Logic
语义网知识描述语言体系
语义网的特性
9. 知识图谱中的知识表示
真实的知识图谱
DBpedia
DBpedia本体的头部
DBpedia本体:类别列表
DBpedia本体:类别(例子)
Dbpedia本体:Planet类的属性列表
Dbpedia本体: Planet类属性举例
Dbpedia个体:举例
10. 分布式知识表示
知识图谱表示学习概述(分布式知识表示)
表示学习
知识图谱:本体+知识库
知识图谱基本概念
知识图谱:符号主义典型代表
符号化的知识表示:非结构化知识
分布式表示:链接主义典型代表
易于数值计算的知识表示:分布表示
在数值空间(隐含变量)中表示含义
文本的数值表示(向量化表示)
知识图谱的数值表示(向量化表示)
分布式知识表示主流方法及其实践
分布式知识表示
位移距离模型
语义匹配模型
模型训练
词表示与知识表示混合学习方法
融合外部知识的预训练语言模型
11. 本章小结