一、经典知识表示理论
1. 语义网络
-
语义网络:是一个通过语义关系连接的概念网络,将知识表示为相互连接的点和边的模式。节点——实体、事件、值;边——对象间的语义关系。
-
语义网络中最基本的语义单元称为语义基元,用<节点1,关系,节点2>表示。如“珊瑚是一种动物”
-
关系类型
-
实例关系(ISA):具体和抽象,一个事物是另一个事物的一个实例。“是一个”。
-
分类关系(AKO):子类和超类,一个事物是另一个事物的一种类型。“是一种”
-
成员关系:个体和集体,一个事物是另一个事物的一个成员。“是一员”
-
属性关系:事物和其属性之间的关系。一个节点具有另一个节点所描述的属性;一个节点能做另一个节点的事情;或者其他属性。“有”、“能”、“身高”、“年龄”。
-
聚合关系:包含关系。部分与整体。如“凳子是桌子的一部分”
-
时间关系:不同事件在其发生时间方面的先后次序关系。“在前”、“在后”
-
位置关系:不同事物在位置方面的关系。“在、在上、在下、在内、在外”
-
相近关系:不同事物在形状、内容等方面相似或接近。
-
-
论元个数
- 一元关系:P(x),P是实体/概念的性质、属性。鱼能游泳,鸟有翅膀:有翅膀(鸟)
- 二元关系:P(x,y),P是实体之间的关系。北京是中国的首都:首都(中国,北京)
- 多元关系:转化为多个二元关系的组合,利用合取把多元关系表示出来。2008年,奥运会在北京举办
2. 框架
框架:将所有事物进行抽象,用来表示事物各方面的属性及事物之间的类属关系。
槽:以框架的结构存储,根据实际情况对框架内的具体值进行填充,填充的部分称为槽。
框架1:<教师>包含九个槽,若存在一个教师的实体,需要对教师框架中的槽(或部分槽)进行填充。
如:<教师实例>{<姓名>{张三},<年龄>{30},<学校>{北京大学},<院系>{人工智能学院},<职称>{讲师}}
层级结构:框架中的属性集合存在继承性质。
二、知识表示方式
1. 语义网中的知识表示方式
a. XML:可扩展标记语言
- 格式规范:
- 序言:对XML的声明,对外部文档的引用。
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html SYSTEM "url.dtd">
# 1. 定义所使用的的XML版本和字符编码
# 2. <!DOCTYPE>标签是标准通用标记语言的文档类型声明,引用外部文件来定义本地文档中出现的名字
# url.dtd标记要引用文档的路径。
- 内容:通过元素来记录,元素都带有标签。
- 标签必须是字母、下划线、冒号
- 标签含有的内容是文本、数值、时间甚至是空
- 元素可以嵌套,深度不受限制
<人物>
<名字>姚明</名字>
<国籍>中国</国籍>
<职业>运动员</职业>
...
</人物>
# <人物>元素是嵌套结构
- 尾注(可略)
- XML路径语言:XPath,具有树状结构从根节点出发,总会找到一条路径到达某一元素或属性
- 优缺点
- 优点:灵活性
- 缺点:通用性低,若没有详细的XML解释文档,自定义、个性化标签的语义难以知晓。
b. RDF:资源描述框架
XML的扩展或简化,假定任何复杂的语义都可以通过若干下三元组的组合来表达。“对象-属性-值”,“主语-谓词-宾语”
<姚明,国籍,中国>
<姚明,职业,运动员>
<运动员,父类,人>
- 查询语言:SPARQL
- 优点:自由度高
- 缺点:同一领域中的不同知识内容难以交互和融合。
- RDF Schema(RDFs)定义领域相关的知识。描述RDF轻量级语言,关注类别、属性的层次结构及继承关系。
- RDFs缺点:限制于子类和属性层次及其属性的定义域、值域。
# rdfs:Class 定义类
<人物,rdf:type,rdf:Class>
<运动员,rdf:type,rdfs:Class>
# rdf:Property定义属性,即“边”(RDF不区分对象属性和数据属性)
<国籍,rdf:type,rdf:Property>
<国籍,rdfs:domain,人物>
c. OWL:网络本体语言
本体的语义表示语言,建立在RDF基础上。
- 头部:预先制定一系列的命名空间,使用命名空间中预定义的标签来形成本体的头部。
# <owl:Ontology rdf:about=""> 本模块描述当前本体
<owl:Ontology rdf:about="">
<rdfs:comment>一个本体的例子</rdfs:comment>
<rdfs:label>物理学家本体</rdfs:label>
</owl:Ontology>
- 主体:描述本体的类别、实例、属性之间相互关联的部分。
<owl:Class rdf:ID="物理学家">
<rdf:subClassOf rdf:resource="科学家"/>
<rdfs:label xml:lang="zh">物理学家</rdfs:label>
</owl:Class>
2. 知识图谱中的知识表示方法
知识主体包含内容:
(1) 事物:客观世界中的实体或对象。如“北京”、“唐山大地震”。
(2) 概念:具有相似本体特征的一类事物,即类型。如“城市”、“作家”。
(3) 属性:事物或概念具有的特征和特性。如“国籍”、“震级”、“地理位置”。
(4) 关系:概念与实体之间的关联方式。如“类-子类”关系、“类-实例”关系。
(5) 函数:事物或概念之间进行转化的形式表达。如:国籍(鲁迅)=“中国”中“国籍(X)”为函数。
(6) 约束:某项断言成立的限制条件的形式化描述。如:属性“国籍”的值必须为“国家”类型的实体。
(7) 规则:依据某项断言得到逻辑推论的因果关系知识的形式化描述,通常具有“如果···那么···”的形式。
(8) 公理:永远为真
ps:大多数知识图谱主要对前四项进行建模。
知识图谱的知识表示:不仅仅体现在RDF为基础框架的三元组上,还体现在实体、类别、属性、关系等多颗粒度、多层次语义单元的关联之中。它是一个知识系统,以一种统一的方式表示了知识定义和知识实例两个层次的知识。
知识图谱是语义网的工程实现
参考文献:
[1] 什么是知识图谱? https://zhuanlan.zhihu.com/p/71128505
[2] 知识图谱的技术与应用(18版) https://zhuanlan.zhihu.com/p/38056557
[3] 赵军.知识图谱[M].高等教育出版社.2018:293.