B. 知识图谱表示与建模
概述
- 知识图谱设计的要素
- 业务理解 30%
- 知识图谱设计 30%
- 算法 20%
- 开发 20%
- 知识图谱设计的原则
- 业务原则:一切要从业务逻辑出发,并且通过观察知识图谱的设计也很容易推测其背后业务的逻辑,而且设计时也要想好未来业务可能的变化
- 分析原则:我们不需要把跟关系分析无关的实体放在图谱当中;
- 效率原则:效率原则的核心在于把知识图谱设计成小而轻的存储载体。效率原则让知识图谱尽量轻量化、并决定哪些数据放在知识图谱,哪些数据不需要放在知识图谱。
- 冗余原则:有些重复性信息、高频信息可以放到传统数据库当中。
- 知识表示的五大用户或特点
- 客观事物的机器标示,即知识表示首先需要定义客观实体的机器指代或指称
- 一组本体约定和概念模型,即知识表示还需要定义用于描述客观事物的概念和类别体系
- 支持推理的表示基础,即只是表示还需要提供机器推理的模型与方法
- 用于高效计算的数据结构,即知识表示也是一种用于高效计算的数据结构
- 人可理解的机器语言,即知识表示还必须接近于人的认知,是人可理解的机器语言
- 知识表示的分类
- 符号知识表示的特点是易于刻画显式、离散的知识,因而具有内生的可解释性
- 连续向量表示包含大量不易于符号化的隐性知识(借鉴词向量的技术)
- 最新知识图谱的发展思路
- 现代知识图谱受到规模化的影响,通常采用以三元组为基础的较为简单实用的知识表示方法,并弱化了对强逻辑表示的要求
- 由于知识图谱是很多搜索、问答和大数据分析系统的重要数据基础,基于向量的知识图谱表示使得数据更易于和深度学习模型集成,\n使得基于向量的知识图谱表示越来越受到重视
本体论
- 问题
- 将什么内容放入这种Agent的知识库 — 如何表示关于世界的事实。包括:事件、时间、物理对象以及信念等
- 困境
- 通用本体论工程的计划目前为止只取得了有限的成功。没有一个定级AI应用使用了公用的本体论 — 它们都使用了专用的知识工程。
- 本体论的四条创建路线
- 由一个受训练的本体论者/逻辑学家团队创建,它们创建本体论,写出公理。CYC系统主要是通过这种途径创建的。
- 从已有的一个或多个数据库导入类别、属性和值。DBPEDIA是通过从Wikipedia导入结构事实而创建的。
- 通过从语法分上分析文档,并从中提取信息。
- 通过怂恿未经训练的业余爱好者输入常识知识。
- 类别和对象
- 类别:发生关系的是个体对象层次上,但是许多推理是发生在类别层次上的。比如说买一个篮球,而不是特定的篮球。
- 对象:一个对象是另一个对象的一部分,比如说鼻子是头的一部分,罗马尼亚是欧洲的一部分,用PartOf表示
- 量度:比如说物理的长度、重量、时间、货币等Length(L1) = Inches(1.5) = Centimeters(3.81)
- 量度最重要的作用是:排序
- 物质(不服从个体性)和物体(个体性)的区别:一些黄油分成两部分,还是黄油一只海豚分成两半,就不是海豚
- 事件演算:结合事件的事件
- 过程:流体事件,空间物质
- 时间区间:
- 精神事件和精神对象
- 模态逻辑
- 类别的推理系统
- 语义网络 为知识库可视化提供图形的帮助,并为在类别隶属关系基础上推断对象的属性提供有效算法
- 描述逻辑 为构建和组合类别定义提供形式语言,并为判定类别之间的子集和超集关系提供有效算法。
- 被设计成更容易描述类别的定义和属性的符号表示,主要推理任务包括:
- 包含:通过比较定义检查一个类别是否是另一个类别的子集
- 分类:检查一个对象是否属于一个类
- 类别定义的一致性:隶属标准的逻辑上是否可满足
- 被设计成更容易描述类别的定义和属性的符号表示,主要推理任务包括: